https://arxiv.org/abs/2312.10692
기존 보행자 속성 인식(PAR) 알고리즘은 시각적 특징 학습을 위한 백본 네트워크로 사전 훈련된 CNN(예: ResNet)을 채택함
이는 보행자 이미지와 속성 레이블 간의 관계를 충분히 활용하지 못해 최적이 아닌 결과를 얻을 수 있음
저자들은 PAR을 시각-언어 융합 문제로 공식화하고 보행자 이미지와 속성 레이블 간의 관계를 최대한 활용함
속성 구문을 먼저 문장으로 확장한 후, 사전 훈련된 시각-언어 모델 CLIP을 시각 이미지와 속성 설명의 특징 임베딩을 위한 백본으로 채택함
대조 학습 목표는 CLIP 기반 특징 공간에서 시각과 언어 모달리티를 잘 연결하고, CLIP에 사용된 Transformer 계층은 픽셀 간 장거리 관계를 포착할 수 있음
그후 다중 모달 Transformer를 채택하여 이중 특징을 효과적으로 융합하고 피드포워드 네트워크를 사용해 속성을 예측함
네트워크를 효율적으로 최적화하기 위해, 저자들은 매우 적은 매개변수(즉, 프롬프트 벡터와 분류 헤드만)를 조정하고 사전 학습된 VL 모델과 멀티모달 Transformer를 모두 수정하는 영역 인식 프롬프트 튜닝 기술 제안함
제안된 PAR 알고리즘은 미세 조정 전략과 비교하여 0.75%의 학습 가능한 매개변수만 조정함
RAPv1, RAPv2, WIDER, PA100K, PETAZS, RAP-ZS 데이터 세트를 포함해 PAR에 대한 스탠다드 및 제로샷 설정에서 새로운 최첨단 성능 달성


Contributions of this paper
• 보행자 속성 인식 위한 새로운 CLIP-guided vision-language fusion framework, PromptPAR 제안함
사전 훈련된 vision-language 모델의 강력한 특징 표현을 최대한 활용해 보행자 이미지와 속성 레이블 간 관계를 연결함
또한, 속성의 불균형한 데이터 분포를 처리하고 보다 일반화된 PAR 모델을 얻음
• 제안된 PAR 네트워크의 보다 효율적인 학습을 달성 위해 효과적인 영역 인식 프롬프트 튜닝 전략을 제안함
사전 학습된 큰 모델과 시각-언어 융합 모듈의 매개변수를 모두 고정하고 미세 조정 전략과 비교해 0.75%의 학습 가능한 매개변수 조정함
• 여러 PAR 데이터셋 (RAPv1, RAPv2, PETA, PA100K, WIDER)에 대한 광범위한 실험 통해 PromptPAR의 효과 검증함
PromptPAR는 WIDER 데이터셋의 PA100K, RAPv1, RAPv2 및 mA의 F1 점수에서 각각 90.15%, 82.38%, 81.00% 및 92.0% 달성
또한, PromptPAR는 두 개의 제로샷 PAR 데이터 세트에 새로운 SOTA 달성하고 PETA-ZS 및 RAP-ZS 데이터셋의 정확도 지표에서 기준선을 각각 최대 +5.52% 및 +5.66%까지 향상시킴
제안하는 PromptPAR은 시각-언어 융합 프레임워크를 기반으로 개발됨
이는 VTB에서 처음 제안되었지만, 이 연구에서는 별도로 훈련된 시각 및 텍스트 백본 채택하고 미세 조정 사용해 이중 모달리티를 융합함
이 프레임워크는 이중 모달리티를 보다 효과적으로 연결하는 입력 임베딩 위해 사전 훈련된 VL 모델을 채택함
또한, 훈련 효율성과 인식 성능 모두에서 기존 모델들을 개선하는 프롬프트 튜닝 채택함
Prompt Learning
사전 훈련된 큰 모델을 보다 잘 활용하기 위해 프롬프트 학습이 제안되어 다운스트림 작업이 유사한 목표를 갖도록 변환함
널리 사용되는 튜닝과 상당히 다른 새로운 튜닝 방법이므로 프롬프트 학습은 자연어 처리 분야의 네 번째 패러다임이라고도 함
GPT-3와 같이 이 아이디어를 기반으로 많은 작업이 개발됨
프롬프트 학습은 멀티모달 커뮤니티에서도 널리 활용됨
Wang et al은 액션 인식을 멀티모달 비디오-텍스트 매칭 문제로 공식화하고 ActionCLIP 제안함
VPT는 학습 가능한 프롬프트 세트를 입력 토큰에 주입하여 미세 조정이 필요한 매개변수 수를 줄이는 것으로 제안됨
Zhou et al은 VL 모델을 이미지 인식에 효율적으로 적용할 수 있는 컨텍스트 최적화(CoOp)라는 방법 제안함
보이지 않는 레이블에 학습된 컨텍스트를 적용할 때 제한된 일반화 문제를 해결하는 것을 목표로 하는 각 이미지에 대한 입력 조건 토큰 생성하는 방법인 CoCoOp을 소개함
Gao et al은 어댑터를 사용해 새로운 기능 학습하고 원래 기능과 잔류적으로 혼합함
이 접근 방식 사용하면 텍스트 및 시각적 분기를 동시에 최적화할 수 있음
Guo et al은 인코딩 중에 두 가지 모달리티인 시각 및 언어가 상호 작용하도록해 추가 매개변수가 필요 없이 다재다능한 시각적 모델 만듦
Zhang et al은 캐싱 모델을 사용해 어댑터 가중치를 직접 구성해 강력한 few-shot 분류 성능 보여주는 학습이 필요 없는 방법인 Tip-Adapters 도입함
이러한 작업에서 영감 얻어 보행자 속성 인식 작업을 CLIP 모델에 적용하기 위해 시각적 텍스트 프롬프트 튜닝을 제안함
이는 훈련에 필요한 매개변수 수를 줄이고 표준 미세 조정 알고리즘과 비교해 더 나은 인식 성능을 제공함
Multi-modal Pre-trained Models
Preliminary of CLIP Model
고품질 특징 표현과 zero-shot transfer learning을 고려해 이 논문에서는 속성 인식을 위해 사전 훈련된 VL 모델을 채택함
CLIP은 이미 많은 작업에서 검증된 단순성과 우수한 성능으로 인해 실험에서 선택됨
이 모델은 4억 개의 이미지-텍스트 쌍으로 구성된 데이터셋에서 사전 훈련됨

CLIP에는 시각적 인코더와 텍스트 인코더라는 두 가지 분기가 있음
Transformer 네트워크는 두 모달리티의 인코더로 채택됨
ResNet을 시각적 인코더로 사용해 사전 훈련된 모델의 여러 버전 얻음
두 특징이 추출되면 두 특징 간 코사인 유사도 계산됨
학습 목표는 일치하는 시각적-텍스트 쌍(matched visual-text pairs)을 더 가깝게 하고 일치하지 않는 쌍(unmatched pairs)을 더 멀리 밀어내는 것임
CLIP도 모호한 언어 설명으로 인해 발생하는 문제를 해결 위한 다양한 프롬프트를 제공하기 위해 프롬프트 엔지니어링 따름
추론 단계에서 시각적 샘플과 텍스트 샘플 간 semantic distance는 CLIP 인코더에 입력해 쉽게 얻을 수 있음
실험에서 CLIP ViT-B/16과 CLIP ViT-L/14 모두 평가에 채택됨
Overview of Proposed PromptPAR
이 논문에서는 PAR을 multi-modal fusion problem로 취급함

PromptPAR 프레임워크는 시각적 인코더, 텍스트 인코더, 다중 모달 변환기(MM-Former), 분류 헤드의 네 가지 주요 모듈로 구성됨
시각-언어 관계를 더 잘 활용하고자 입력 임베딩을 위해 사전 훈련된 CLIP 사용함
시각적 특징 인코딩에는 CLIP ViT-L/14 사용되며, 보행자 이미지에서 동일한 크기의 패치를 입력으로 사용함
텍스트 입력은 먼저 주어진 속성을 개별 단어로 분할한 다음, 프롬프트 템플릿을 사용해 각 속성을 문장으로 확장함
텍스트 인코더는 문장을 입력 및 출력 언어 특징 표현으로 사용함
시각적 특징과 텍스트 특징은 함께 연결되어 다중 모달 변환기에 입력됨
마지막으로 분류 헤드를 도입해 얻은 특징을 해당 속성 응답 점수로 투영함
신경망 최적화 위한 일반적인 튜닝과 달리, 이 작업에서는 신속한 조정을 통해 네트워크 매개변수를 최소한으로 최적화해 과적합 방지하고 CLIP의 시각-언어 특징 공간을 최대한 유지하는 것 제안함
여러 PAR 벤치마크 데이터셋에 대한 광범위한 실험 통해 신속한 조정이 학습 효율성과 전반적인 정확도를 크게 향상시킨다는 것 확인됨

CLIP 모델:
- CLIP: 시각적, 언어적 정보 결합해 이미지와 텍스트 간 관계 학습하는 모델
- CLIP Visual Encoder: 이미지 임베딩해 고차원 특성 추출
- CLIP Text Encoder: 텍스트 임베딩해 언어적인 정보 처리
CLIP Visual Encoder

- CLS: Class Token, F^V: 시각적 특징 벡터
- CLS: Transformer의 i번째 레이어에서 시각적 특성 통합하기 위한 역할
CLIP Text Encoder

- A1, A2, ... An: 보행자 속성에 해당하는 텍스트로, 예를 들어 "Age 30-40", "Wearing glasses" 같은 속성들이 됨
- 이들은 텍스트로 변환되어 CLIP Text Encoder에 입력되고, 그 결과는 속성 예측 위한 특징 벡터로 사용됨

Prompt Engineering:
- Prompt Engineering: 텍스트를 프롬프트로 변환해 모델의 입력으로 사용하고, 이를 통해 다양한 텍스트 속성들을 모델에 제공하는 기법
- 예를 들어, 보행자 속성을 "age in (40, 50)"와 같은 형태의 텍스트로 정의하고, 이를 CLIP Text Encoder에 입력해 속성에 대한 추론 도움
- 이를 통해 학습되지 않은 속성이나 새로운 속성에 대해서도 모델이 잘 추론할 수 있도록 도움
MM-Former:
- MM-Former: 텍스트와 시각적 특성 결합해 멀티모달 특성 추출하고, 속성 예측을 위한 모델로 사용됨
- 이 모델은 Transformer 기반으로, 멀티 헤드 어텐션을 통해 다양한 속성 간의 관계를 학습함
- 특히 Prompt Tuning 방식 사용해 모델의 파라미터 최적화하고, 속성 예측의 효율성 높이는 데 중점 둠

- F^V: 시각적 특징 벡터, F^T: 텍스트 특징 벡터
- ϕ는 시각적 특징과 텍스트 특징 결합하는 함수로, 이를 통해 통합된 특성 생성
- 이후 멀티헤드 어텐션 적용해 시각적 정보와 텍스트 정보를 집합적으로 처리
Region-aware Prompt Tuning:
- 보행자 이미지에서 다양한 지역(예: 상반신, 하반신) 인식하고, 각 지역에 맞는 프롬프트를 추가해 더 정교한 속성 예측 할 수 있게 하는 기법

- CLS_g: 각 영역에 대한 클래스 토큰, F^V_g: 해당 영역에 대한 시각적 특성
Region-aware Prompt 사용으로 Transformer의 주의를 특정 영역에 집중시키고, 각 영역에 대한 속성 더 정확히 예측하게 함
Loss Function
보행자 속성 예측 위한 최종 손실 함수는 Cross-Entropy 손실 함수와 Prompt Tuning 고려한 weighted cross entropy로 정의됨

- L_cls: 속성 예측 위한 class loss function
- L_cross: 속성 간 관계 고려한 cross entropy loss로, Prompt Tuning 통해 효율적인 학습 도움
- α와 β: 하이퍼파라미터로, 두 손실 항목 간 균형 맞추는 역할함
Experiments
* 논문에 나온 수치를 직접 플롯화한 결과임




Limitation Discussion
로컬 영역과 속성 간 관계 충분히 고려하지 않아 일부 이미지에서 잘못된 예측 하기도 함
실행 효율성 낮음 -> 매개변수가 너무 많고 모델이 무거워 실제 플랫폼에서 사용하기 어려움
향후 연구에서는 경량 신경망 추출로 정확하고 빠른 속성 인식을 목표로 할 예정