CLIP은 범용적이지만 느림
-> CLIP를 quant 해서 Edge에서도 잘 돌아가게 만드는 게 목표
- 나중엔 YOLO 같은 detector로 보행자 위치도 잡고
- 탐지된 bbox에 대해 CLIP-based 양자화 모델로 속성 인식
- 영상 위에 bbox + ‘wearing backpack’ 이런 거 띄워주기
① 보행자 검출 (Detection)
- YOLO, EfficientDet 등 경량 보행자 탐지 모델 사용해서
- 프레임마다 사람 bbox 뽑아냄
- 예시: person_detections = detector(image) → [bbox1, bbox2, ...]
② 각 보행자 영역을 CLIP or PAR 모델에 넣어 속성 인식
- bbox 크롭 → CLIP/PAR 인퍼런스
- 입력 문장 리스트 (예: ["wearing backpack", "has long hair"]) 미리 준비
- CLIP 유사도 계산 → 가장 유사한 속성 top-k 추론
③ 시각화 & 실시간 추적
- 이미지 위에:
- 바운딩 박스 + 추론된 속성 텍스트 표시
- 속성별 필터링까지 가능: “모자 쓴 사람만 빨간 박스”
최종 구조
[ 영상 스트림 or 프레임 ]
↓
[ 사람 검출: Lightweight Detector (ex. YOLOv5-nano) ]
↓
[ 각 사람 crop → PAR 모델 (quant한 CLIP 기반 모델) ]
↓
[ 유사도 계산 → 가장 적합한 속성 top-k ]
↓
[ 화면 위에 시각화 (bbox + 속성 텍스트) + 저장 or 스트리밍 ]
[FP32]
1. CLIP (done)
2. TinyCLIP (done)
3. MobileCLIP (done)
[양자화]
4. CLIP-Quant (todo)
5. TinyCLIP-Quant (todo)
6. MobileCLIP-Quant (todo)
→ 이후 [mAP / F1 / 시간 / 메모리] 종합 비교
'Capstone' 카테고리의 다른 글
| [ Meeting ] 5월 3주차 - use pre-quantization model (0) | 2025.05.20 |
|---|---|
| [ Meeting ] 5월 2주차 - 정밀도 낮추기 실험 (0) | 2025.05.12 |
| [ Meeting ] 5월 1주차 - Baseline 측정(PyTorch FP32) (0) | 2025.05.05 |
| [ Meeting ] 4월 3주차 - Quantized clip 조사, Baseline 성능 측정 (0) | 2025.04.17 |
| [ Meeting ] 4월 2주차 - 데이터셋 구성, 모델별 Inference Time 측정 (0) | 2025.04.11 |