


이다.


교사 모델의 크기가 커지면 성능이 증가하여서 더 좋은 supervisor이 되어서 학생 모델의 성능도 증가한다.
교사 모델이 너무 복잡해지면서 학생이 선생모델을 따라하거나 배우기에 충분한 용량이 안된다.
교사 모델이 커지면 데이터에 대한 확실도가 증가하면서, soft target의 soft한 정도가 줄어들어서 학생 모델이 배울 정보들이 줄어든다.
TA 모델은 학생과 교사 모델 크기 사이 어딘가의 크기를 가진다.
TA 모델은 교사 모델에게서 지식증류된다.
TA 모델은 학생 모델을 지식 증류로 학습시킨다.
distillation를 사용하면 loss surface가 평평하게 나타나는 경향이 있다.
loss surface가 평평할수록 noise에 강해져서 성능이 좋다.