본문 바로가기

Capstone

Looking for the Devil in the Details: Learning Trilinear Attention SamplingNetwork for Fine-grained Image Recognition 논문 리뷰

 

https://arxiv.org/pdf/1903.06150v2

 

Fine-Grained Image Recognition 문제 해결 위한 새로운 접근법 제안

 

 

 

배경 및 문제점

  • Fine-Grained Image Recognition은 동일한 상위 카테고리 내에서 서로 매우 유사한 하위 카테고리(예: 새의 종, 자동차 모델 등)를 구분하는 작업
  • 이 작업은 객체의 미세한 차이를 인식해야 하기 때문에 일반적인 이미지 분류보다 훨씬 어려움
  • 기존 방법들은 부분 기반 모델링이나 Attention Mechanism을 사용하지만, 여전히 미세한 세부사항을 효과적으로 포착하는 데 한계있음

기존의 Fine-Grained Recognition 방법들과 제안된 TASN의 차이

 

  • (a) 기존의 부분 기반 방법은 사전 정의된 부분이나 영역 사용
  • (b) 주의 메커니즘을 사용하는 방법은 이미지의 특정 영역에 집중하지만, 세부 부위의 고해상도 정보를 놓칠 수 있음
  • (c) 제안된 TASN은 주의 모듈 통해 중요한 부위를 고해상도로 다시 샘플링해 세부사항 학습

 

 

세부 내용

1. Trilinear Attention Module

  • Spatial Attention: 이미지 내에서 중요한 위치 강조
  • Channel Attention: 특징 맵의 채널 간 상관관계 학습해 중요한 채널 선택
  • Class Attention: 분류하고자 하는 클래스와 관련된 특징 강화

    -> 세 가지 메커니즘 결합해 Trilinear attention 수행

 

 

 

제안된 Trilinear Attention Sampling Network (TASN) 전체 구조

  • 입력 이미지가 백본 네트워크를 통해 특징 맵으로 변환됨
  • Trilinear Attention Module은 특징 맵에서 중요한 정보 추출
  • Attention 정보 기반으로 샘플링된 이미지 패치 생성하고, 이를 고해상도로 다시 처리
  • 교사-학생 네트워크 구조에서 교사 네트워크는 전체 이미지를, 학생 네트워크는 샘플링된 세부 이미지를 학습
  • 두 네트워크의 특징 통합해 최종 분류 수행

 

Trilinear Attention Module의 세부 구조

  • Spatial Attention, Channel Attention, Class Attention가 어떻게 결합되어 주의 맵을 생성하는지 보여줌
  • 각 Attention 메커니즘은 별도의 경로 통해 특징 맵에 적용됨
  • 최종적으로 세 Attention 맵이 결합돼 Trilinear Attention 맵 생성

 

2. Attention-based Sampling

  • Attention 모듈에서 얻은 정보를 바탕으로, 이미지의 중요한 부위를 고해상도로 재샘플링
  • 이를 통해 세부 부위의 정보를 더욱 정확히 학습 가능

 

Attention based sampling 통해 얻은 세부 이미지 패치 예시

  • 원본 이미지와 비교해, 주의 모듈이 강조한 중요한 부위가 어떻게 샘플링되었는지 시각화
  • 모델이 실제로 어떤 부분에 집중해 학습하는지 이해하는 데 도움 됨

 

 

3. Feature Distillation

  • 교사 네트워크: 전체 이미지에서 추출된 특징 학습
  • 학생 네트워크: Attention 모듈을 통해 샘플링된 세부 이미지에서 특징 학습
  • Knowledge Distillation 통해 학생 네트워크가 교사 네트워크의 정보를 효과적으로 학습하도록 함
  • 두 네트워크의 특징 통합해 최종 분류 수행

Feature Distillation 과정의 흐름

  • 교사 네트워크와 학생 네트워크의 특징이 어떻게 상호작용하고, Knowledge Distillation를 통해 학생 네트워크가 교사 네트워크의 정보를 학습하는지 보여줌
  • 손실 함수 구성 요소도 함께 나타내, 학습 과정에서 어떤 목표를 최적화하는지 설명

 

실험 및 결과

  • 데이터셋:
    • CUB-200-2011: 새의 종 분류
    • Stanford Cars: 자동차 모델 분류
    • FGVC Aircraft: 항공기 모델 분류
  • 비교 모델:
    • 기존의 부분 기반 모델 및 Attention 메커니즘 사용한 모델들과 성능 비교
  • 결과:
    • 제안된 TASN 모델이 기존의 방법들보다 높은 정확도 달성
    • 특히, 세부 부위의 학습을 통해 미세한 차이를 효과적으로 인식할 수 있음을 입증

 

프로젝트 적용 방안

  • 질환 진단:
    • TASN의 고해상도 세부 이미지 학습 활용해 안구 이미지에서 미세한 병변이나 이상 부위를 정확하게 인식 가능
    • Trilinear Attention Module 통해 중요한 부위 강조해 모델의 진단 정확도 높일 수 있음
  • 데이터 준비:
    • 다양한 질환 이미지 데이터 수집하고, 정확히 레이블링
    • 데이터 다양성 확보해 모델 일반화 능력 향상시켜야 함
  • 모델 학습 및 평가:
    • TASN 구조 기반으로 모델 구현하고, 수집한 데이터로 학습
    • 교차 검증 등 통해 모델 성능 평가하고, 필요시 모델 개선

 

결론

Fine-Grained Image Recognition 분야에서 세부사항을 효과적으로 학습할 수 있는 새로운 네트워크 구조 제안

이를 통해 기존의 한계 극복하고 다양한 분야에 적용할 수 있는 가능성 보여줌

 

 


Tiny Star