본문 바로가기

Capstone

이쯤에서 다시 보는 목표

CLIP은 범용적이지만 느림

-> CLIP를 quant 해서 Edge에서도 잘 돌아가게 만드는 게 목표

  • 나중엔 YOLO 같은 detector로 보행자 위치도 잡고
  • 탐지된 bbox에 대해 CLIP-based 양자화 모델로 속성 인식
  • 영상 위에 bbox + ‘wearing backpack’ 이런 거 띄워주기

 보행자 검출 (Detection)

  • YOLO, EfficientDet 등 경량 보행자 탐지 모델 사용해서
  • 프레임마다 사람 bbox 뽑아냄
  • 예시: person_detections = detector(image)  [bbox1, bbox2, ...]

 각 보행자 영역을 CLIP or PAR 모델에 넣어 속성 인식

  • bbox 크롭 → CLIP/PAR 인퍼런스
  • 입력 문장 리스트 (예: ["wearing backpack", "has long hair"]) 미리 준비
  • CLIP 유사도 계산 → 가장 유사한 속성 top-k 추론

 시각화 & 실시간 추적

  • 이미지 위에:
    • 바운딩 박스 + 추론된 속성 텍스트 표시
    • 속성별 필터링까지 가능: “모자 쓴 사람만 빨간 박스”

최종 구조

[ 영상 스트림 or 프레임 ]
        ↓
[ 사람 검출: Lightweight Detector (ex. YOLOv5-nano) ]
        ↓
[ 각 사람 crop → PAR 모델 (quant한 CLIP 기반 모델) ]
        ↓
[ 유사도 계산 → 가장 적합한 속성 top-k ]
        ↓
[ 화면 위에 시각화 (bbox + 속성 텍스트) + 저장 or 스트리밍 ]

 


 

[FP32]
1. CLIP (done)
2. TinyCLIP (done)
3. MobileCLIP (done)

[양자화]
4. CLIP-Quant (todo)
5. TinyCLIP-Quant (todo)
6. MobileCLIP-Quant (todo)

→ 이후 [mAP / F1 / 시간 / 메모리] 종합 비교

 

 


Tiny Star