Title: "FitNets: Hints for Thin Deep Nets"
Summary: 중간 레이어의 표현을 활용하여 Student Model을 효과적으로 학습하는 방법을 제안, Hint layer 개념 도입
Loss function
Teacher의 출력:
Student의 출력:
Hint-Based Training
다음 Loss function을 최소화하여 FitNet 파라미터를 학습
해당 Loss는 Teacher의 Hint 레이어 출력과 Student의 중간 레이어 출력이 일치하도록 하는데 사용
이를 통해 Student가 Teacher의 정보를 더 잘 학습할 수 있음
Title: "Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer"
Summary: Attention 맵을 통해 Teacher Model의 중요 정보를 Student Model에 전달하는 방법을 제안함
인간은 attention을 통해 시각적 경험을 만들고 세부사항과 일관성을 가진 시각적 표상을 생성
이 때, CNN attention의 spatial map은 저수준, 중수준, 고수준의 representation을 capture 할 수 있음
CNN 레이어의 activation tensor
이 연구에서는 다음의 activation 기반 spatial attention map 사용
Title: "Paraphrasing Complex Network: Network Compression via Factor Transfer"
Summary
Paraphraser의 중간 레이어 출력을 'Teacher factors'로 정의
Translator 모듈을 사용하여 'Student factors'를 생성
이 과정은 두 단계로 구성
Paraphraser가 reconstruction loss를 통해 학습
Teacher factor가 Student 네트워크로 전이되어 Student이 이를 학습
Student는 classification loss와 factor transfer loss를 합한 loss function으로 학습
Title: "Relational Knowledge Distillation"
Summary
이 논문은 Teacher Model과 Student Model 간의 관계 정보를 활용하여 Student Model이 Teacher Model의 지식을 학습하도록 하는 새로운 Knowledge Distillation 기법을 제안
기존의 Knowledge Distillation 방법이 개별 데이터 예제의 출력을 모방하는 것과 달리, 이 방법은 데이터 간의 상호 관계를 학습하도록 유도
논문에서는 두 가지 주요 Loss Fucntion인 Distance-wise Loss와 Angle-wise Loss를 제안하여 구조적 차이를 최소화하고, 모델 성능을 향상
Relational Knowledge Distillation (RKD)
Loss Fucntion 정의
Distance-wise Loss (Distance-wise Distillation Loss):
이 Loss Fucntion은 Teacher Model과 Student Model 간의 데이터 샘플들 사이의 Distance 차이를 최소화하도록 유도
Distance Function 정의:
두 샘플 와 사이의 Distance 는 다음과 같이 정의
Distance-wise Loss 정의:
Teacher Model과 Student Model 간의 Distance 차이를 최소화하기 위한 Loss Fucntion는 다음과 같음:
Angle-wise Loss (Angle-wise Distillation Loss):
이 Loss Fucntion는 Teacher Model과 Student Model 간의 세 샘플이 형성하는 Angle 차이를 최소화하도록 유도
Angle Function 정의:
세 샘플 가 형성하는 Angle 는 다음과 같이 정의:
: 샘플 간의 단위 벡터(unit vector) 간의 내적(inner product)
, : 샘플 간의 단위 벡터
Angle-wise Loss 정의:
Final Loss Fucntion 정의