- 분류: ETC
- 저자: Geoffrey Hinton, Oriol Vinyals, Jeff Dean
- 소속: Google
- paper: Distilling the Knowledge in a Neural Network
- 키워드: knowledge distillation, model compression, soft targets
여러 개 모델을 학습한 뒤, 예측값을 평균 내는 앙상블
-> 대형 신경망 모델을 여러 개 사용
=> 계산 비용이 높아 실제 서비스에서 사용하기 곤란함
따라서, 앙상블 모델의 지식을 하나의 모델로 압축하는 법 제안
지식 증류(Knowledge Distillation)
- 하드타겟: 원-핫 형태의 정답 라벨
MNIST 숫자 분류(7) -> [0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
- 소프트타겟: 출력 확률 분포
MNIST 숫자 분류 -> [0.01, 0.02, 0.03, 0.01, 0.02, 0.05, 0.10, 0.65, 0.08, 0.03]
- 로짓 변환으로 정보량이 높은 확률 분포 생성
- 높은 온도를 사용한 softmax 적용
- 작은 모델이 큰 모델의 일반화 능력을 학습하도록 함
(+) 높은 온도를 사용한 softmax
1. softmax: 모델의 로짓을 확률 분포로 변환
: 일반적인 softmax 확률 분포
: 확률 분포가 더 '확신'하는 형태가 됨 -> 가장 큰 로짓 값을 가진 클래스에 확률 집중
: 확률 분포가 더 부드러워짐 -> 여러 클래스에 대한 확률 값이 고르게 퍼짐 -> 가장 높은 확률을 가진 클래스와 그 외 클래스의 차이가 줄어듦

WER가 더 메인 성능