https://arxiv.org/pdf/1903.06150v2
Fine-Grained Image Recognition 문제 해결 위한 새로운 접근법 제안
배경 및 문제점
- Fine-Grained Image Recognition은 동일한 상위 카테고리 내에서 서로 매우 유사한 하위 카테고리(예: 새의 종, 자동차 모델 등)를 구분하는 작업
- 이 작업은 객체의 미세한 차이를 인식해야 하기 때문에 일반적인 이미지 분류보다 훨씬 어려움
- 기존 방법들은 부분 기반 모델링이나 Attention Mechanism을 사용하지만, 여전히 미세한 세부사항을 효과적으로 포착하는 데 한계있음

기존의 Fine-Grained Recognition 방법들과 제안된 TASN의 차이
- (a) 기존의 부분 기반 방법은 사전 정의된 부분이나 영역 사용
- (b) 주의 메커니즘을 사용하는 방법은 이미지의 특정 영역에 집중하지만, 세부 부위의 고해상도 정보를 놓칠 수 있음
- (c) 제안된 TASN은 주의 모듈 통해 중요한 부위를 고해상도로 다시 샘플링해 세부사항 학습
세부 내용
1. Trilinear Attention Module
- Spatial Attention: 이미지 내에서 중요한 위치 강조
- Channel Attention: 특징 맵의 채널 간 상관관계 학습해 중요한 채널 선택
- Class Attention: 분류하고자 하는 클래스와 관련된 특징 강화
-> 세 가지 메커니즘 결합해 Trilinear attention 수행

제안된 Trilinear Attention Sampling Network (TASN) 전체 구조
- 입력 이미지가 백본 네트워크를 통해 특징 맵으로 변환됨
- Trilinear Attention Module은 특징 맵에서 중요한 정보 추출
- Attention 정보 기반으로 샘플링된 이미지 패치 생성하고, 이를 고해상도로 다시 처리
- 교사-학생 네트워크 구조에서 교사 네트워크는 전체 이미지를, 학생 네트워크는 샘플링된 세부 이미지를 학습
- 두 네트워크의 특징 통합해 최종 분류 수행

Trilinear Attention Module의 세부 구조
- Spatial Attention, Channel Attention, Class Attention가 어떻게 결합되어 주의 맵을 생성하는지 보여줌
- 각 Attention 메커니즘은 별도의 경로 통해 특징 맵에 적용됨
- 최종적으로 세 Attention 맵이 결합돼 Trilinear Attention 맵 생성
2. Attention-based Sampling
- Attention 모듈에서 얻은 정보를 바탕으로, 이미지의 중요한 부위를 고해상도로 재샘플링
- 이를 통해 세부 부위의 정보를 더욱 정확히 학습 가능

Attention based sampling 통해 얻은 세부 이미지 패치 예시
- 원본 이미지와 비교해, 주의 모듈이 강조한 중요한 부위가 어떻게 샘플링되었는지 시각화
- 모델이 실제로 어떤 부분에 집중해 학습하는지 이해하는 데 도움 됨
3. Feature Distillation
- 교사 네트워크: 전체 이미지에서 추출된 특징 학습
- 학생 네트워크: Attention 모듈을 통해 샘플링된 세부 이미지에서 특징 학습
- Knowledge Distillation 통해 학생 네트워크가 교사 네트워크의 정보를 효과적으로 학습하도록 함
- 두 네트워크의 특징 통합해 최종 분류 수행

Feature Distillation 과정의 흐름
- 교사 네트워크와 학생 네트워크의 특징이 어떻게 상호작용하고, Knowledge Distillation를 통해 학생 네트워크가 교사 네트워크의 정보를 학습하는지 보여줌
- 손실 함수 구성 요소도 함께 나타내, 학습 과정에서 어떤 목표를 최적화하는지 설명
실험 및 결과
- 데이터셋:
- CUB-200-2011: 새의 종 분류
- Stanford Cars: 자동차 모델 분류
- FGVC Aircraft: 항공기 모델 분류
- 비교 모델:
- 기존의 부분 기반 모델 및 Attention 메커니즘 사용한 모델들과 성능 비교
- 결과:
- 제안된 TASN 모델이 기존의 방법들보다 높은 정확도 달성
- 특히, 세부 부위의 학습을 통해 미세한 차이를 효과적으로 인식할 수 있음을 입증
프로젝트 적용 방안
- 질환 진단:
- TASN의 고해상도 세부 이미지 학습 활용해 안구 이미지에서 미세한 병변이나 이상 부위를 정확하게 인식 가능
- Trilinear Attention Module 통해 중요한 부위 강조해 모델의 진단 정확도 높일 수 있음
- 데이터 준비:
- 다양한 질환 이미지 데이터 수집하고, 정확히 레이블링
- 데이터 다양성 확보해 모델 일반화 능력 향상시켜야 함
- 모델 학습 및 평가:
- TASN 구조 기반으로 모델 구현하고, 수집한 데이터로 학습
- 교차 검증 등 통해 모델 성능 평가하고, 필요시 모델 개선
결론
Fine-Grained Image Recognition 분야에서 세부사항을 효과적으로 학습할 수 있는 새로운 네트워크 구조 제안
이를 통해 기존의 한계 극복하고 다양한 분야에 적용할 수 있는 가능성 보여줌
