Self-Distillation이라는 매우 흥미로운 주제..
핵심은 deeper classifier를 teacher로 삼아서 쓴다 ㄷㄷ
각 layer마다 classifier를 달아버림,,
이 시기의 연구는 꽤나 멋있다