본문 바로가기

Capstone

[ Meeting ] 1월 - PAR엔 Zeroshot 안써도 될듯

 

1. 평가지표 확실히 !

mA(mean Accuracy)

  • 각 클래스별 Acc의 평균
  • 각 속성에 대해 균등하게 중요도 두고 성능 평가 가능
  • 다양한 속성 예측하는 보행자 속성 탐지 문제에 적합

Accuracy

  • 전체 예측 중 정확한 예측의 비율(올바르게 예측된 샘플 비율)
  • 전체 예측에서 정확히 맞은 비율 확인 가능
  • 모델이 얼마나 정확히 속성 예측하는지에 대한 전반적 성능 평가에 유용

Precision

  • Positive로 예측한 것 중 실제 Positive의 비율
  • False Positive(잘못 예측한 Positive 속성)가 중요하다면 정밀도를 중요하게 고려해야 함

Recall

  • 실제 Positive 중에서 모델이 얼마나 Positive로 예측했는지의 비율(False Negative(잘못 예측한 Negative 속성)을 얼마나 줄였는지 나타냄)
  • False Negative(모델이 속성 놓친 경우)가 중요하다면 재현율 평가하는 게 유용

F1-Score

  • Precision와 Recall의 조화 평균으로, 이 두 지표 간의 균형 평가
  • F1-Score가 높다: Precision와 Recall 모두 높은 상태
  • 두 지표 간 균형 중요시할 때 유용

 

2. LLM-PAR, CLIP 무슨 모델이든 정확도 조금 손해보더라도 cost 대비 성능 향상 목표로 하기

넵..!


 

3. LLM 모델은 자연어 뭐 사용했는지 알아보기

  • 자연어를 뭘 사용했는지는 찾아볼 수 없었음 ㅠㅠ
  • ViT를 백본으로 사용해 보행자 이미지 처리하고, 멀티 임베딩 쿼리 트랜스포머 도입해 부분별 특징 학습함
  • LLM을 앙상블 학습과 시각적 특징 향상에 활용해 성능 극대화

 

4. LLM 부분을 1bit로 하게끔 할 수 있다면 그걸 사용하면 내 모델이 더 빨라질거다(PAR에는 많은 랭귀지가 필요하지 않을 수 있기 때문)

교수님 천재..

  • LLM-PAR이나 CLIP 기반 모델에서 1비트 양자화를 적용해 모델을 경량화하는 아이디어
  • 보행자 속성 인식에서 자연어 처리(NLP)가 필요한 정도가 낮으면 LLM을 1비트로 양자화하는 게 좋을 수도 있음

  -> 모델 메모리 사용량이 대폭 줄고, 계산량도 크게 감소할 수 있음

 

  • 하지만 1비트 양자화는 모델 accuracy에 영향 줄  수 있음 -> 성능 저하 어느 정도인지 실험으로 검증해야 할 필요 있음
  • 자연어 모델에 1비트 양자화 적용하는 경우, 이론적으로 모델이 매우 빠르고 메모리 효율적일 수 있지만, 성능 저하가 너무 커지지 않도록 하려면 파인튜닝이나 다른 최적화 방법 고려해야 함
  • 먼저 1비트 양자화 적용한 후, 성능 평가 통해 어떤 정도의 정확도를 유지할 수 있는지 파악하고, 필요한 경우 성능 개선 방법 찾아야 함

 

5. (ppt에 나온 각 모델)인퍼런스할 때 어디서 bottle neck 생기는지 살펴보기

  • LLM-PAR과 PromptPAR 모델 해당 논문에서 bottle neck에 대한 정보는 찾아볼 수 없었지만 추론을 해보자면, 이 모델들은 Transformer 기반 모델로, 일반적으로 큰 모델을 사용하기에 인퍼런스 시 모델 로딩과 메모리 관리에서 bottle neck 생길 수 있음
  • LLM-PAR과 PromptPAR 모델은 높은 FLOPs와 메모리 대역폭 요구할 수 있음 -> CPU나 GPU 성능에 의존하게 됨
  • 인퍼런스 중에는 필요한 데이터를 메모리로 불러오는 과정에서 디스크 I/O가 bottle neck 일으킬 수 있음(특히 대규모 데이터셋 사용하는 경우, 데이터 불러오는 속도나 데이터 전송 속도가 제한적일 수 있음)

  -> bottle neck 줄이려면 모델 압축, 연산 최적화, 메모리 관리 최적화, 병렬화 등을 고려해야 함


 

6. 실시간 보행자 탐지하려면 어느 정도 성능 필요한지 알아보기

[1] Muhammad Dany Alfikri and Rafael Kaliski, “Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach” IEEE, 2024.
  • GPU: RTX 3090 GPU
  • dataset: Crowdhuman(4,370 annotated images)
  • accuracy: 78%

  • inference speed: 147 milliseconds
  • fps: 2.3 frames per second
  • FLOPS(Floating Point Operations per Second): 초당 수행되는 부동 소수점 연산 양. FLOPS 많으면 컴퓨팅 자원 더 많이 소모 -> 비용 증가

 


Tiny Star