본문 바로가기

Capstone

[ Meeting ] 4월 1주차 - 경량 CLIP 모델 선정 및 실험 환경 최적화

 

로드맵에 기반해 이번 주차 일정을 진행했다.

이제 정말 시간을 많이 써야한다. 진짜로 !

 

 

PAR(Pedestrian attribution recognition)에 적합한 경량 CLIP 모델을 선정했다.

 

CLIP를 Baseline Model로 하고,

TinyCLIP, CLIP-BERT, MobileCLIP 경량 CLIP 모델로 실험하기로 했다.


CLIP Text Enconder -> LLM 부분이라고 부르지 않음. 그냥 CLIP의 Text Enconder

 

CLIP은 image가 main.

LLM은 image는 딱히 X

 

그래서 PAR을 CLIP/ LLM 중 어떤 타입으로 해야 하는지?

-> 이래서 이 프로젝트에 LLM이 사용되는지 물어보신 것

 

내가 자꾸 CLIP의 LLM 부분을 경량화한다고 하니까.. ㅇㅅㅇ

그럼 CLIP의 Text Enconder 를 경령화하는 건 말이 되나?

 

CLIP과 LLM 중 각자 가벼운 모델로 바꿔보고 try ..!

 


 

이전에 CLIP, TinyCLIP에 대해 인퍼런스 시간 측정한 게 이상해서 (한 이미지에 대해 실험했는데, TinyCLIP이 더 느림)

이제 이 프로젝트에서 사용할 MSP60K 데이터셋의 랜덤 이미지에 대해 제대로 측정해보려고 했다.

 


GPU 로딩시간 등 때문에 시간 오래 걸릴 수도 있음 -> batch 건너뛰고 측정하던지

다른 사람은 어떻게 하는지 보기.

인퍼런스 시간 느리면 평균값, 중앙값 잰다던지..

 

빠르게 숫자 뽑아보기

CLIP 성능, mobile CLIP 성능은 이 정도..

그리고 CLIP+LLM은 이 정도 ~~


 

역시 감이 안잡힐 때는 데이터셋 먼저 까보고 바로 실험에 들어가야 한ㄷㅏ..

1~2월 중 이미 끝냈어야 할 작업인데 너무 길게 끌었다.

 

merged_labels.json 파일 내용은 단순히 속성에 대한 값들!

0: 이 속성 없음

1: 이 속성 있음

 

 

그리고 속성(annotation) 값 모아둔 파일은 따로 있음 (이 구조라면 당연함)

 

추가로,

1. pickle 파일은 무엇을 담고 있는 건지 알아봐야 함

2. degraded_images는 무엇을 위해 존재하는 걸까? 이미지 픽셀과 화소를 줄여 메모리 사용량 감소를 위함일까?

 


 

학습 데이터셋 구성해서 이제 돌려봐야해 (!!)

 


 



4월 1~2주
: 모델 바꿔봤다 정도는 해야 함(수치)

4월 3~4주: 남들이 했던 거 + 세팅 => 얘를 뭘로 바꿔보자.

-> 혼자 할 수 있는 거 speedy하게 진행

5월: 성능 보정

 

 


Tiny Star