Pedestrian Attribute Recognition via CLIP basedPrompt Vision-Language Fusion 논문 리뷰

기존 보행자 속성 인식(PAR) 알고리즘은 시각적 특징 학습을 위한 백본 네트워크로 사전 훈련된 CNN(예: ResNet)을 채택함

이는 보행자 이미지와 속성 레이블 간의 관계를 충분히 활용하지 못해 최적이 아닌 결과를 얻을 수 있음

저자들은 PAR을 시각-언어 융합 문제로 공식화하고 보행자 이미지와 속성 레이블 간의 관계를 최대한 활용함

속성 구문을 먼저 문장으로 확장한 후, 사전 훈련된 시각-언어 모델 CLIP을 시각 이미지와 속성 설명의 특징 임베딩을 위한 백본으로 채택함

대조 학습 목표는 CLIP 기반 특징 공간에서 시각과 언어 모달리티를 잘 연결하고, CLIP에 사용된 Transformer 계층은 픽셀 간 장거리 관계를 포착할 수 있음

그후 다중 모달 Transformer를 채택하여 이중 특징을 효과적으로 융합하고 피드포워드 네트워크를 사용해 속성을 예측함

네트워크를 효율적으로 최적화하기 위해, 저자들은 매우 적은 매개변수(즉, 프롬프트 벡터와 분류 헤드만)를 조정하고 사전 학습된 VL 모델과 멀티모달 Transformer를 모두 수정하는 영역 인식 프롬프트 튜닝 기술 제안함

제안된 PAR 알고리즘은 미세 조정 전략과 비교하여 0.75%의 학습 가능한 매개변수만 조정함

RAPv1, RAPv2, WIDER, PA100K, PETAZS, RAP-ZS 데이터 세트를 포함해 PAR에 대한 스탠다드 및 제로샷 설정에서 새로운 최첨단 성능 달성

기존 연구는 일반적으로 지역 관계만 인코딩하는 피처 학습을 위해 CNN을 채택하지만, 일부 속성은 신체 모양과 드레스 스타일과 같이 장거리 픽셀 관계 모델링에 크게 의존함

최근 자연어 처리 및 컴퓨터 비전에서 셀프 어텐션 및 Transformer 네트워크의 성공은 점점 더 많은 주목을 받고 있음

일부 연구에 따르면 Transformer가 입력 토큰 간의 장거리 관계를 잘 포착한다는 것이 밝혀짐

많은 연구가 Transformer를 독립적으로 사용하거나 CNN 모델과 연결하여 개발되고 있음

Cheng 등은 Transformer를 PAR 분야에 도입하고 시각적 텍스트 입력을 융합해 간단한 VTB를 제안함

ViT 백본 네트워크를 사용해 심층적인 시각적 특징 추출한 후, 속성 구를 분할해 문장으로 확장함

그 후, 시각적 텍스트 Transformer를 도입해 속성 인식을 위한 이중 모달리티를 융합함

VTB는 앞서 언급한 문제를 어느 정도 해결하고 이전 연구보다 더 나은 결과를 달성하지만, 여전히 PAR에 대한 핵심 단서 무시함

첫째, 단순히 시각적 및 텍스트 특징 추출을 위해 사전 학습된 ViT와 BERT를 도입함

-> 내부 관계의 마이닝이 약할 수 있음

둘째, 시각적 텍스트 특징 융합하기 위해 멀티모달 Transformer를 설계하고 전체 네트워크의 최적화 위해 미세 조정을 채택함

-> 학습 가능한 매개변수의 양이 방대하기 때문에 GPU 컴퓨팅 성능에 대한 요구 사항이 더 높아질 것임

PAR 작업에서 Multi-Modal Pre-Trained big Models(MM-PTM)의 힘 완화하기 위해 이 논문에서는 PAR을 다중 모달 융합 문제로 공식화하고 사전 훈련된 CLIP 모델에서 얻은 사전 지식을 최대한 활용하기 위해 새로운 CLIP 기반 PAR 프레임워크 제안함

그림 3과 같이 먼저 "a pedestrian whose _____ is _____"와 같은 프롬프트 템플릿을 사용해 속성 구문을 언어 설명으로 확장함

예를 들어, long hair → a pedestrian whose hair is long.

그런 다음 보행자 이미지와 텍스트를 모두 사전 훈련된 시각 언어 모델에 공급해 피처 임베딩을 수행함

다음으로, 이중 피처를 융합하기 위해 다중 모달 Transformer 도입하고 몇 개의 피드포워드 계층을 속성 예측에 사용함

네트워크 최적화 위해 미세 조정을 채택한 이전 작업과 달리, 전체 네트워크의 효율적인 최적화를 달성하기 위해 효과적인 영역 인식 프롬프트 조정 기술을 제안함

구체적으로, 이러한 지역적 프롬프트가 공간 인식 속성 기능 학습에 도움이 된다는 가정 하에 다양한 신체 부위에 대해 다른 프롬프트 토큰을 제안함

검은 머리카락과 안경과 같은 속성은 머리 영역과 더 관련이 있는 반면, 티셔츠는 상체 영역과 더 관련이 있기 때문임

따라서 다른 연구에서 사용된 하나의 글로벌 프롬프트 대신 다른 프롬프트를 주입하면 도움이 될 수 있음

사전 훈련된 시각-언어 모델과 다중 모달 변환기의 매개변수는 모두 고정되어 있음

즉, 프롬프트와 인식 헤드만 학습 가능함

영역 인식 시각 프롬프트와 텍스트 프롬프트는 무작위로 초기화된 다음, 시각 및 언어 기능과 별도로 연결됨

실험은 이러한 프롬프트 튜닝이 전반적인 인식 성능을 유지하면서도 훈련 효율성을 크게 향상시킨다는 것 보여줌

Contributions of this paper

• 보행자 속성 인식 위한 새로운 CLIP-guided vision-language fusion framework, PromptPAR 제안함

사전 훈련된 vision-language 모델의 강력한 특징 표현을 최대한 활용해 보행자 이미지와 속성 레이블 간 관계를 연결함

또한, 속성의 불균형한 데이터 분포를 처리하고 보다 일반화된 PAR 모델을 얻음

• 제안된 PAR 네트워크의 보다 효율적인 학습을 달성 위해 효과적인 영역 인식 프롬프트 튜닝 전략을 제안함

사전 학습된 큰 모델과 시각-언어 융합 모듈의 매개변수를 모두 고정하고 미세 조정 전략과 비교해 0.75%의 학습 가능한 매개변수 조정함

• 여러 PAR 데이터셋 (RAPv1, RAPv2, PETA, PA100K, WIDER)에 대한 광범위한 실험 통해 PromptPAR의 효과 검증함

PromptPAR는 WIDER 데이터셋의 PA100K, RAPv1, RAPv2 및 mA의 F1 점수에서 각각 90.15%, 82.38%, 81.00% 및 92.0% 달성

또한, PromptPAR는 두 개의 제로샷 PAR 데이터 세트에 새로운 SOTA 달성하고 PETA-ZS 및 RAP-ZS 데이터셋의 정확도 지표에서 기준선을 각각 최대 +5.52% 및 +5.66%까지 향상시킴

제안하는 PromptPAR은 시각-언어 융합 프레임워크를 기반으로 개발됨

이는 VTB에서 처음 제안되었지만, 이 연구에서는 별도로 훈련된 시각 및 텍스트 백본 채택하고 미세 조정 사용해 이중 모달리티를 융합함

이 프레임워크는 이중 모달리티를 보다 효과적으로 연결하는 입력 임베딩 위해 사전 훈련된 VL 모델을 채택함

또한, 훈련 효율성과 인식 성능 모두에서 기존 모델들을 개선하는 프롬프트 튜닝 채택함

Prompt Learning

사전 훈련된 큰 모델을 보다 잘 활용하기 위해 프롬프트 학습이 제안되어 다운스트림 작업이 유사한 목표를 갖도록 변환함

널리 사용되는 튜닝과 상당히 다른 새로운 튜닝 방법이므로 프롬프트 학습은 자연어 처리 분야의 네 번째 패러다임이라고도 함

GPT-3와 같이 이 아이디어를 기반으로 많은 작업이 개발됨

프롬프트 학습은 멀티모달 커뮤니티에서도 널리 활용됨

Wang et al은 액션 인식을 멀티모달 비디오-텍스트 매칭 문제로 공식화하고 ActionCLIP 제안함

VPT는 학습 가능한 프롬프트 세트를 입력 토큰에 주입하여 미세 조정이 필요한 매개변수 수를 줄이는 것으로 제안됨

Zhou et al은 VL 모델을 이미지 인식에 효율적으로 적용할 수 있는 컨텍스트 최적화(CoOp)라는 방법 제안함

보이지 않는 레이블에 학습된 컨텍스트를 적용할 때 제한된 일반화 문제를 해결하는 것을 목표로 하는 각 이미지에 대한 입력 조건 토큰 생성하는 방법인 CoCoOp을 소개함

Gao et al은 어댑터를 사용해 새로운 기능 학습하고 원래 기능과 잔류적으로 혼합함

이 접근 방식 사용하면 텍스트 및 시각적 분기를 동시에 최적화할 수 있음

Guo et al은 인코딩 중에 두 가지 모달리티인 시각 및 언어가 상호 작용하도록해 추가 매개변수가 필요 없이 다재다능한 시각적 모델 만듦

Zhang et al은 캐싱 모델을 사용해 어댑터 가중치를 직접 구성해 강력한 few-shot 분류 성능 보여주는 학습이 필요 없는 방법인 Tip-Adapters 도입함

이러한 작업에서 영감 얻어 보행자 속성 인식 작업을 CLIP 모델에 적용하기 위해 시각적 텍스트 프롬프트 튜닝을 제안함

이는 훈련에 필요한 매개변수 수를 줄이고 표준 미세 조정 알고리즘과 비교해 더 나은 인식 성능을 제공함

Multi-modal Pre-trained Models

현재의 multi-modal big model은 일반적으로 시각-언어 데이터에 대해 사전 학습됨

-> 수집하기 비교적 쉽고 광범위한 시나리오에서 사용할 수 있기 때문

많은 양의 사전 학습된 다중 모달 모델이 Transformers 아키텍처를 기반으로 개발됨

Li et al은 Transformer의 셀프 어텐션 메커니즘을 통해 입력 텍스트와 이미지의 영역을 정렬해 단일 스트림 사전 학습된 모델 제안함

Li et al은 이미지에서 감지된 객체 레이블을 앵커 포인트로 사용해 이미지와 언어 정렬하고 더 나은 성능을 달성하는 Oscar 제안함

CLIP은 4억 개의 이미지-텍스트 쌍에서 이중 모달 간의 대조 학습을 수행해 얻음

3D 다중 모달 도메인에서 다중 모달 학습 모델에 대한 광범위한 연구가 수행됨

예를 들어, PointCLIP, PointCLIPv2, ULIP 및 ULIP2는 교차 모달 매칭 통해 포인트 클라우드, 이미지 및 텍스트를 통합 피처 공간에 정렬

Joint-MAE는 조인트 마스킹 메커니즘 사용해 2D와 3D 간 암묵적인 의미적 및 기하학적 상관 관계 설정

ImageBind, Point-Bind 및 LanguageBind와 같은 바인딩 모델은 사람이 특정 채널 통해 다양한 모달리티 바인딩한다고 제안

그러나 완전한 멀티모달 데이터를 수집하는 것은 어려움

이런 접근 방식은 한 모달리티와 다른 모달리티의 쌍 데이터를 사용하여 조인트 임베딩 공간을 학습해 멀티모달 의미적 정렬 달성함

많은 다운스트림 작업에서 멀티모달 사전 학습된 모델의 성공에 영감을 받아 이 작업에서 보행자 속성 인식 프레임워크를 기반으로 하는 최초의 멀티모달 사전 학습된 모델 제안함

제안된 PromptPAR는 빠른 튜닝과 함께 학습 효율성과 전반적인 인식 성능 측면에서 모두 장점 보여줌

Preliminary of CLIP Model

고품질 특징 표현과 zero-shot transfer learning을 고려해 이 논문에서는 속성 인식을 위해 사전 훈련된 VL 모델을 채택함

CLIP은 이미 많은 작업에서 검증된 단순성과 우수한 성능으로 인해 실험에서 선택됨

이 모델은 4억 개의 이미지-텍스트 쌍으로 구성된 데이터셋에서 사전 훈련됨

CLIP에는 시각적 인코더와 텍스트 인코더라는 두 가지 분기가 있음

Transformer 네트워크는 두 모달리티의 인코더로 채택됨

ResNet을 시각적 인코더로 사용해 사전 훈련된 모델의 여러 버전 얻음

두 특징이 추출되면 두 특징 간 코사인 유사도 계산됨

학습 목표는 일치하는 시각적-텍스트 쌍(matched visual-text pairs)을 더 가깝게 하고 일치하지 않는 쌍(unmatched pairs)을 더 멀리 밀어내는 것임

CLIP도 모호한 언어 설명으로 인해 발생하는 문제를 해결 위한 다양한 프롬프트를 제공하기 위해 프롬프트 엔지니어링 따름

추론 단계에서 시각적 샘플과 텍스트 샘플 간 semantic distance는 CLIP 인코더에 입력해 쉽게 얻을 수 있음

실험에서 CLIP ViT-B/16과 CLIP ViT-L/14 모두 평가에 채택됨

Overview of Proposed PromptPAR

이 논문에서는 PAR을 multi-modal fusion problem로 취급함

PromptPAR 프레임워크는 시각적 인코더, 텍스트 인코더, 다중 모달 변환기(MM-Former), 분류 헤드의 네 가지 주요 모듈로 구성됨

시각-언어 관계를 더 잘 활용하고자 입력 임베딩을 위해 사전 훈련된 CLIP 사용함

시각적 특징 인코딩에는 CLIP ViT-L/14 사용되며, 보행자 이미지에서 동일한 크기의 패치를 입력으로 사용함

텍스트 입력은 먼저 주어진 속성을 개별 단어로 분할한 다음, 프롬프트 템플릿을 사용해 각 속성을 문장으로 확장함

텍스트 인코더는 문장을 입력 및 출력 언어 특징 표현으로 사용함

시각적 특징과 텍스트 특징은 함께 연결되어 다중 모달 변환기에 입력됨

마지막으로 분류 헤드를 도입해 얻은 특징을 해당 속성 응답 점수로 투영함

신경망 최적화 위한 일반적인 튜닝과 달리, 이 작업에서는 신속한 조정을 통해 네트워크 매개변수를 최소한으로 최적화해 과적합 방지하고 CLIP의 시각-언어 특징 공간을 최대한 유지하는 것 제안함

여러 PAR 벤치마크 데이터셋에 대한 광범위한 실험 통해 신속한 조정이 학습 효율성과 전반적인 정확도를 크게 향상시킨다는 것 확인됨

CLIP 모델:

CLIP: 시각적, 언어적 정보 결합해 이미지와 텍스트 간 관계 학습하는 모델
CLIP Visual Encoder: 이미지 임베딩해 고차원 특성 추출
CLIP Text Encoder: 텍스트 임베딩해 언어적인 정보 처리

CLIP Visual Encoder

CLS: Class Token, F^V: 시각적 특징 벡터
CLS: Transformer의 i번째 레이어에서 시각적 특성 통합하기 위한 역할

CLIP Text Encoder

A1, A2, ... An: 보행자 속성에 해당하는 텍스트로, 예를 들어 "Age 30-40", "Wearing glasses" 같은 속성들이 됨
이들은 텍스트로 변환되어 CLIP Text Encoder에 입력되고, 그 결과는 속성 예측 위한 특징 벡터로 사용됨

Prompt Engineering:

Prompt Engineering: 텍스트를 프롬프트로 변환해 모델의 입력으로 사용하고, 이를 통해 다양한 텍스트 속성들을 모델에 제공하는 기법
예를 들어, 보행자 속성을 "age in (40, 50)"와 같은 형태의 텍스트로 정의하고, 이를 CLIP Text Encoder에 입력해 속성에 대한 추론 도움
이를 통해 학습되지 않은 속성이나 새로운 속성에 대해서도 모델이 잘 추론할 수 있도록 도움

MM-Former:

MM-Former: 텍스트와 시각적 특성 결합해 멀티모달 특성 추출하고, 속성 예측을 위한 모델로 사용됨
이 모델은 Transformer 기반으로, 멀티 헤드 어텐션을 통해 다양한 속성 간의 관계를 학습함
특히 Prompt Tuning 방식 사용해 모델의 파라미터 최적화하고, 속성 예측의 효율성 높이는 데 중점 둠

F^V: 시각적 특징 벡터, F^T: 텍스트 특징 벡터
ϕ는 시각적 특징과 텍스트 특징 결합하는 함수로, 이를 통해 통합된 특성 생성
이후 멀티헤드 어텐션 적용해 시각적 정보와 텍스트 정보를 집합적으로 처리

Region-aware Prompt Tuning:

보행자 이미지에서 다양한 지역(예: 상반신, 하반신) 인식하고, 각 지역에 맞는 프롬프트를 추가해 더 정교한 속성 예측 할 수 있게 하는 기법

CLS_g: 각 영역에 대한 클래스 토큰, F^V_g: 해당 영역에 대한 시각적 특성

Region-aware Prompt 사용으로 Transformer의 주의를 특정 영역에 집중시키고, 각 영역에 대한 속성 더 정확히 예측하게 함

Loss Function

보행자 속성 예측 위한 최종 손실 함수는 Cross-Entropy 손실 함수와 Prompt Tuning 고려한 weighted cross entropy로 정의됨

L_cls: 속성 예측 위한 class loss function
L_cross: 속성 간 관계 고려한 cross entropy loss로, Prompt Tuning 통해 효율적인 학습 도움
α와 β: 하이퍼파라미터로, 두 손실 항목 간 균형 맞추는 역할함

Experiments

* 논문에 나온 수치를 직접 플롯화한 결과임

Limitation Discussion

로컬 영역과 속성 간 관계 충분히 고려하지 않아 일부 이미지에서 잘못된 예측 하기도 함

실행 효율성 낮음 -> 매개변수가 너무 많고 모델이 무거워 실제 플랫폼에서 사용하기 어려움

향후 연구에서는 경량 신경망 추출로 정확하고 빠른 속성 인식을 목표로 할 예정

저작자표시 비영리 변경금지 (새창열림)

'Capstone' 카테고리의 다른 글

Model Quantization and Hardware Acceleration for VisionTransformers: A Comprehensive Survey 논문 리뷰 (0)	2025.02.08
Pedestrian Attribute Recognition: A New Benchmark Dataset and A LargeLanguage Model Augmented Framework 논문 리뷰 (0)	2025.01.15
SNN-PAR: Energy Efficient Pedestrian Attribute Recognition via Spiking Neural Networks 논문 리뷰 (0)	2024.12.31
CNN-based diagnosis models for canine ulcerative keratitis 논문 리뷰 (0)	2024.09.10
Fine-Grained Classification with Noisy Labels 논문 리뷰 (0)	2024.09.10

damiai