
양자화 연산이 End-to-end 학습에서 문제가 되는 이유
딥러닝 기반 CSI 피드백 시스템은 보통 End-to-end 방식으로 학습됨
이 구조는 Encoder와 Decoder를 포함한 전체 신경망을 하나의 블록으로 보고,
원본 CSI와 복원된 CSI 사이의 손실을 최소화하는 방향으로 모든 파라미터를 동시에 최적화하는 방식
이때 사용되는 최적화 방법은 경사 하강법(Gradient Descent)이며,
역전파(Backpropagation)를 통해 파라미터의 기울기 계산하고 학습함
하지만 이 시스템에 양자화(quantization) 모듈이 포함되면 문제 발생
양자화는 Encoder의 출력(Code word)을 디지털 비트 스트림으로 변환할 때 필수적으로 포함되는 단계
이 양자화는 일반적으로 반올림(rounding) 연산을 포함
예: 2.7 → 3, 1.2 → 1
이 Rounding 연산은 수학적으로 미분 불가능(Non-differentiable)한 함수임
함수 그래프는 계단 함수 형태를 가지며, 대부분의 구간에서 미분값이 0이고, 불연속점에서는 미분이 정의되지 않음
따라서 역전파를 수행하면 Gradient가 양자화 모듈에서 소멸하거나 끊어짐
이로 인해 Encoder로 Loss의 Gradient가 전달되지 않게 되며, Encoder 파라미터는 학습되지 않음
결국 Decoder만 학습되고, Encoder는 양자화의 영향을 전혀 반영하지 못하게 됨
이는 전체 시스템의 성능 저하로 이어짐.
문제 해결 위한 대표적 접근법
- Gradient Approximation (Straight-Through Estimator, STE) 사용
- 학습 시 Rounding 연산의 Gradient를 1로 설정
- 역전파 단계에서 실제로 미분 하지 않고, Rounding을 우회하여 Gradient가 Encoder까지 전달되도록 함
- 추론 단계에서는 여전히 실제 Rounding 사용
- Uniform Noise 추가 (Quantization Approximation)
- Encoder 출력에 Uniform Noise를 추가하여 양자화 오차 근사
- 예: DeepCMC, 엔트로피 코딩 적용된 모델 등
- Noise는 미분 가능하기 때문에 Gradient가 자연스럽게 흐름
- Encoder가 양자화의 불확실성을 고려한 Code word 생성하도록 유도
- 양자화 함수의 미분 가능한 근사 사용
- Rounding 대신 Sigmoid나 tanh 같은 연속적이고 미분 가능한 함수로 근사
- 예: Soft-to-Hard quantization 방식, Gumbel-Softmax 기반 접근법 등
- 추론 단계에서는 근사 대신 실제 양자화 적용
- Binarization + Knowledge Distillation
- 1-bit 양자화에서는 복잡한 Teacher 네트워크로 학습하고, 이 지식을 단순한 Student 네트워크에 전이
요약
양자화 모듈은 비선형적이고 미분 불가능 -> CSI 피드백 시스템의 End-to-end 학습 방해함
Gradient 소멸 또는 차단으로 인해 Encoder 학습이 불가능해짐
이를 해결하기 위해 학습 시에만 양자화를 근사하거나, Gradient 흐름을 인위적으로 만들어주는 다양한 기법이 제안됨
이 접근 방식은 DL 기반 압축 및 피드백 시스템에서 매우 핵심적인 연구 주제임
코드워드 분포 특성과 비균일 양자화의 필요성
- 코드워드 분포는 Encoder 출력 값들이 0 근처에 밀집되는 경향 가짐
- 이로 인해 균일 양자화는 비효율적임
- 균일 양자화는 전체 범위를 동일한 간격으로 나누어 각 구간에 동일한 양자화 레벨 할당
- 하지만 코드워드 대부분이 0 부근에 위치하므로
- 낮은 진폭 영역에 더 많은 레벨이 필요함
- 반면 거의 나타나지 않는 높은 진폭 영역에도 동일한 수의 레벨이 배분되어 자원 낭비 발생
- 결과적으로 중요한 구간에서 정보 손실 커지고 복원 성능 저하됨
- 해결하기 위해 비균일 양자화 방식이 필요
- 값이 조밀한 구간은 더 촘촘하게
- 값이 드문 구간은 더 넓게 양자화 레벨을 할당함
μ-law 양자화 작동 방식
- μ-law 양자화는 음성 신호 압축에서 자주 사용되는 비균일 양자화 기법
- 입력값의 크기에 따라 로그 스케일로 양자화 간격 조절
- 작은 값은 미세하게, 큰 값은 거칠게 구분
- 0 근처에서 정밀도가 높고 높은 진폭에서는 낮아짐
- 코드워드가 0 근처에 집중된 특성을 고려할 때 μ-law 양자화가 효과적임
- 적은 비트 수로도 상대적으로 높은 표현력을 얻을 수 있어 CSI 피드백에서 효율적임
μ-law 양자화 기반 CSI 피드백 프레임워크 구조
1 Encoder
- UE 단에서 CSI를 부동소수점 코드워드 형태로 압축
2 μ-law Quantizer
- 코드워드를 μ-law 비균일 양자화해 비트 표현 가능한 이산 값으로 변환
3 비트스트림 전송
- 양자화된 값을 비트로 인코딩해 업링크 채널 통해 전송
4 Dequantization at BS
- 수신된 비트를 역양자화해 근사적인 연속 값으로 복원
5 Offset NN
- Dequantized된 코드워드를 입력으로 받아 양자화로 인한 오류 보정
- Residual 구조 사용해 코드워드에 예측된 보정 값 더함
- 양자화 오류를 줄이기 위한 정제 모듈 역할 수행
6 Decoder
- 정제된 코드워드 기반으로 CSI 복원
2단계 학습 전략 필요성과 구조
End-to-end 학습은 양자화 모듈에서 Gradient 흐름이 끊기기 때문에 직접 학습 어려움
이를 해결하기 위해 다음과 같은 단계별 학습을 수행함
1단계 Pre-training
- 양자화 없이 Encoder와 Decoder를 함께 학습함
- 또는 양자화를 포함하더라도 Gradient가 흐르도록 근사 기법 사용함
- 목적은 원본 CSI를 압축하고 복원하는 기본 능력을 학습하는 것임
- 이 과정에서 Encoder Decoder의 초기 가중치를 확보함
2단계 Fine-tuning with Quantization
- 실제 양자화 연산을 포함한 구조를 학습에 포함함
- μ-law 양자화 모듈과 Offset NN을 추가함
- Encoder와 Decoder는 고정하거나 아주 작은 학습률로 미세 조정함
- 양자화된 코드워드를 Offset NN이 정제하도록 학습함
- 목표는 최종 복원된 CSI의 오류 NMSE를 최소화하는 것임
요약
- DL 기반 CSI 피드백 시스템에서 코드워드는 0 근처에 몰리는 분포 가짐
- 균일 양자화는 이러한 특성 반영 못해 성능 저하 초래
- μ-law 양자화는 비균일 구조로 작은 값에 정밀한 표현력 제공
- Offset NN은 양자화 오류 줄이기 위해 추가된 학습 가능한 정제 모듈
- 학습: 2단계 전략 사용해 양자화의 비미분성 문제 효과적으로 해결
- 결과적으로 낮은 비트 수로 높은 복원 정확도 달성
'Wireless Communication' 카테고리의 다른 글
| [ Paper Review ] Overview of Deep Learning-based CSI Feedback in Massive MIMO Systems (3) | 2025.07.10 |
|---|