본문 바로가기

분류 전체보기

(49)
YOLO 이상행동 탐지 프로젝트 흐름 YOLO 이상행동 탐지 프로젝트 흐름 1. 데이터 준비문제정의입력: CCTV 연속 프레임(1920×1080)출력: 프레임마다 이상행동 사람 박스 + 레이블(normal, fall, crawl 등)레이블링 단위 결정프레임 단위로 박스 + 클래스YOLO 포맷으로 정리images/train, images/vallabels/train, labels/val레이블 파일 형식(한 줄이 한 박스): 1 0.52 0.63 0.18 0.30 → class_id=1, 중심과 크기는 정규화 좌표데이터 불균형 확인normal이 90% 이상, fall · crawl 매우 적음 -> Focal Loss 적용 이유 2. Training구조 선택모델: YOLOv5s -> 실시간 처리 위해 경량 모델 선택, 큰 모델보다 작은 모델 + ..
RAG - Multimodal Recommender System https://learn.deeplearning.ai/courses/building-multimodal-search-and-rag/ Building Multimodal Search and RAG - DeepLearning.AIBuild smarter search and RAG applications for multimodal retrieval and generation.learn.deeplearning.ai Recommendation은 농구 져지 주세여 했을 때좀 더 개인화해서 알맞은 걸 주는 거 멀티모달은 개인화 제공함 개인화 함으로서 벡터값 하나로 이 모든 정보를 나타낼 수도 있고각 모달리티마다 벡터값으로 나타낼 수도 있음 어떤 사람은 사진만 보고, 어떤 사람은 캡션만 보고 음식/메뉴를 고를 수 있기..
RAG - Industry Applications https://learn.deeplearning.ai/courses/building-multimodal-search-and-rag/ Building Multimodal Search and RAG - DeepLearning.AIBuild smarter search and RAG applications for multimodal retrieval and generation.learn.deeplearning.ai 실제 산업에 적용될 수 있는 예시들!인풋이 영수증이나 송장이면 정보들을 json 데이터로 추출 회사 투자 덱이면 마크다운 테이블 형식으로 추출 logical flow chart의 implement를 text나 python code로 받고싶다면 이것도 가능 import warningswarnings.f..
RAG - Multimodal RAG (MM-RAG) https://learn.deeplearning.ai/courses/building-multimodal-search-and-rag/ Building Multimodal Search and RAG - DeepLearning.AIBuild smarter search and RAG applications for multimodal retrieval and generation.learn.deeplearning.ai 언어 모델에 프롬프트 형태로 질문만 제공하는 대신 질문과 함께 관련 정보 검색해 제공모델은 검색 후 생성 작업 수행해 사용자가 질문에 답하기 전에 관련 정보 읽어올 수 있음 그 다음, 프롬프트 사용해 벡터 데이터베이스에서 가장 관련성 높은 문서를 검색하고해당 관련 문서를 프롬프트와 함께 LLM의 컨텍..
RAG - Large Multimodal models https://learn.deeplearning.ai/courses/building-multimodal-search-and-rag/ Building Multimodal Search and RAG - DeepLearning.AIBuild smarter search and RAG applications for multimodal retrieval and generation.learn.deeplearning.ai 현재 LLM은 모두 생성형 사전 학습 트랜스포머임 (Llama2, Chat-GPT, Mistral 등)이런 모델은 한 번에 하나의 토큰 또는 단어 조각을 생성하기 때문에 자기회귀적-> 생성되는 다음 토큰은 이전에 제공되거나 생성된 토큰에만 의존 이런 모델은 비지도 학습 방식으로 훈련됨수조 개의 토큰에..
RAG - Multimodal search https://learn.deeplearning.ai/courses/building-multimodal-search-and-rag Building Multimodal Search and RAG - DeepLearning.AIBuild smarter search and RAG applications for multimodal retrieval and generation.learn.deeplearning.ai 어떤 모달리티로 들어와도 그 어떤 모달리티로 리트리브 가능 MM model 통과 후 벡터값 출력모달리티에 구애받지 않고 비슷한 내용(e.g. 사자)의 입력값이면 비슷한 벡터값 가짐 import warningswarnings.filterwarnings('ignore')import osfrom dotenv..
RAG - Overview of multimodality Building Multimodal Search and RAG https://www.deeplearning.ai/short-courses/building-multimodal-search-and-rag/ Building Multimodal Search and RAGBuild multimodal RAG systems that retrieve multimodal context and reason over it to generate more relevant answers.www.deeplearning.ai RAG 찍먹 드가자~ 사자라는 텍스트, 사자 울음소리라는 오디오, 사자 영상 등등'사자'와 관련있는 것은 임베딩 스페이스에서 가깝게,사자와 트럼펫처럼 관계없는건 멀게 한번에 한 모달리티는 그 모달리티에 해당하..
LangChain - Agents 언어 모델을 추론 엔진으로 사용하는 방법 AgentType은 사용하고 싶은 에이전트 유형 지정하는데 사용됨사용할 언어 모델 초기화 (추론 엔진으로 사용) 에이전트 초기화도구, 언어모델, 에이전트 타입 (CHAT_ZERO_SHOT_REACT_DESCRIPTIO) React는 언어 모델로부터 더 나은 생각을 이끌어내는 프롬프팅 전략"handle_parsing_errors=True"LLM 출력인 문자열 분석해 사용할 수 있는 특정 형식으로 변환할 수 있는지는 매우 중요 question = "Tom M. Mitchell is an American computer scientist \and the Founders University Professor at Carnegie Mellon University (CMU..

Tiny Star