실시간 서빙이 필요한 환경에서는 대규모 model 을 사용하기 곤란함.
latency 및 computing 자원 비용이 높기 때문 -> 이를 해결하기 위해 대규모 model 을 작은 model로 축소시키는 연구 진행
: 특히 대규모 ensemble model의 결과를 하나의 small model 에 transfer 하는 연구가 주목 받고 있음
model 을 학습하는 목적은 real data에서 좋은 성능을 내기 위함
-> 이를 위해서는 model 을 training 하는 데이터에서 general 한 특성을 뽑아내 학습해야 하는데, 실제로는 train data 내부의 special pattern 까지 학습을 하려 함.

해당 논문에서 모든 softmax 함수는 temperature T가 도입된 형태로 변경됨.
학습 과정
1. training set (x, hard target) 을 이용해 large model 학습
2. large model이 충분히 학습된 뒤에, large model의 output을 soft target으로 하는 transfer(x, soft target) 생성. 이때 soft target 의 T는 1이 아닌 높은 값을 생성 (클래스에 대한 완만한 확률붙포를 만들어 정보량을 많게 함)
3. transfer set을 사용해 small model 학습, T는 soft target을 생성할 때와 같은 값 사용
4. training set 사용해 small model 학습, T는 1로 고정
각각의 loss function 은 모두 cross-entropy-ross 를 사용함. 결국, small model 의 최종 loss function은 soft target 과의 cross-entropy-loss + hard-entropy-loss 가 됨