์๋ ํ์ธ์ :) ์ค๋ ๋ธ๋ก๊ทธ ํฌ์คํ ์ผ๋ก ๋ค๋ค๋ณผ ๋ด์ฉ์ ์ผ๋ง ์ ์ ํฅ๋ฏธ๋กญ๊ฒ ์ฝ์ด๋ณด์๋ "Transferring Inductive Bias Through Knowledge Distillation"์ด๋ผ๋ ๋ ผ๋ฌธ์ธ๋ฐ์! ํด๋น ๋ ผ๋ฌธ์ Knowledge Distillation์ ์ด์ฉํ์ฌ ๊ณผ์ฐ Inductive Bias๋ฅผ ์ ๋ฌํ ์ ์์ ๊น๋ฅผ ๋ค๋ฃฌ ๋ ผ๋ฌธ์ ๋๋ค. ์์ฝ๊ฒ๋ ์ด๋ฒ ICLR2021์์ Accept๋์ง ๋ชปํ์ง๋ง ๋ค์ํ ์คํ๊ณผ Knowledge Distillation์ ์ด์ฉํ์ฌ Inductive Bias๋ฅผ Student๋ชจ๋ธ์๊ฒ ์ ๋ฌํ๋ ค๊ณ ์๋ํ ์ฒซ ๋ ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋งํผ ํฅ๋ฏธ๋กญ๊ฒ ์ฝ์ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์ต๋๋ค.
๋ณธ๊ฒฉ์ ์ธ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ๊ธฐ ์ ์ ์ด๋ฒ ์ฅ์์๋ ์ค์ํ ๊ฐ๋
์ธ Knowledge Distillation
๊ณผ Inductive Bias
์ ๋ํ์ฌ ์ด์ผ๊ธฐํ๊ณ ๋ค์ ์ฅ์์๋ ๋
ผ๋ฌธ์์ ์งํํ ๋ค์ํ ์คํ๋ค์ ๋ํด ๋ค๋ฃจ์ด ๋ณด๊ณ ์ํฉ๋๋ค.
Image from "Knowledge Distillation: A Survey (2020)"
Knowledge Distillation(KD)๋ Teacher ๋ชจ๋ธ์์ Student ๋ชจ๋ธ๋ก ์ง์์ ์ด์ ํ๋ ๊ณผ์ ์ ๋งํ๋ฉฐ, ์ฌ๊ธฐ์ Teacher ๋ชจ๋ธ์ ๊ฒฐ๊ณผ(Logit ๊ฐ)์ด Student ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. Knowledge Distillation(KD)๋ ๋ชจ๋ธ ๊ฒฝ๋ํ(์์ถ)์ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ฅ ์ ์๋ ค์ ธ ์์ต๋๋ค.
Knowledge Distillation์ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ์ด 2๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ์ด ๋๋๋ฐ์.
(1) Pre-train Teacher Model : ์ ์(Teacher)๊ฐ ๋๋ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค.
(2) Train Student Model : ํ์(Student)์ด ๋๋ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์ด๋ Student ๋ชจ๋ธ์ ์ ์ ๋ชจ๋ธ๋ก ๋ถํฐ ๋ฐํํ๊ฒ ๋๋ ์ํํธ๋งฅ์ค ๊ฐ(๋ก์ง)๊ณผ ์ ์ฌํ ๊ฐ์ ๊ฐ๋๋ก ํ์ต์ ์ํํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ์ํํธ ๋ผ๋ฒจ์ด๋ผ๊ณ ํ๋ฉฐ, ๋จ์ํ ๋ก์ง์ ์ฌ์ฉํ ์๋ ์์ง๋ง ์ข ๋ ๋ถํฌ๋ฅผ ์๋งํ๊ฒ ํด์ฃผ๊ธฐ ์ํด ์จ๋(Temperature, T)๋ผ๋ ๊ฐ๋
์ ๋์
ํ๊ฒ ๋ฉ๋๋ค.
์ ๋ฐ์ ์ธ ํ๋ก์ธ์ค๋ ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ํํํ ์ ์์ต๋๋ค. ์๋ ์์ Knowledge Distillation(KD)์ Loss Function์
๋๋ค. ์์ ์ ๋ถ๋ถ์ ์ค์ ํ์ ๋ชจ๋ธ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ผ๋ฒจ ๊ฐ์ ์ ์์ธกํ๋ ๊ฐ์ ๋ํ Loss์ด๋ฉฐ, ๋ท ๋ถ๋ถ์ ํ์ ๋ชจ๋ธ์ด ์ ์ ๋ชจ๋ธ๊ณผ ์ผ๋ง๋ ์ ์ฌํ๊ฒ ํ์ต๋๋ ๊ฐ์ ๋ํ Loss์
๋๋ค.
Knowledge Distillation(KD)์ ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๊ฐ ๋ ์ ์๋ ๋ฐ์. ๊ฐ๊ฐ์ ๋ถ๋ฅ๋ค์ ์๋ก ๋
๋ฆฝ์ ์ธ ๊ฒ์ด ์๋๋ผ ๊ฐ ์ฃผ์ ์ ๋ํ ๋ถ๋ฅ๋ก ์ดํดํ์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
Image from "Knowledge Distillation: A Survey (2020)"
์ ๊ทธ๋ฆผ์์ Knowledge์ Distillation์ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋ ํญ๋ชฉ๋ค์ด Knowledge Distillation(KD)์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ ๊ฐ๋ ์ด๊ธฐ ๋๋ฌธ์ ํด๋น ๋ถ๋ถ์ ๋ํด์ ์ค๋ช ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค. :)
๊ฐ์ฅ ๋จผ์ ์ ๋ฌํ๋ Knowledge๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋ฅผ ํ๋ฉด ์๋์ ๊ฐ์ด ์ด 3๊ฐ์ง๋ก ๋ถ๋ฅ๊ฐ ๋ฉ๋๋ค.
(1) Relation-Based Knowledge๋ ์ ์ ๋ชจ๋ธ์ input, layer, output๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ๋ชจ๋ธ์ด ํ์ตํ๊ฒ ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด Graph ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ด๋ฌํ ๊ด๊ณ๋ฅผ ํ์ตํ๊ฒ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
(2) Response-Based Knowledge๋ ์ ์ ๋ชจ๋ธ์ output(response) ์ ๋ณด๋ฅผ ํ์ ๋ชจ๋ธ์ด ํ์ตํ๊ฒ ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ถ๋ฅ ๋ชจ๋ธ์ Logit์ ํ์ตํ๊ฒ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
(3) Feature-Based Knowledge๋ ๋คํธ์ํฌ ์ค๊ฐ์ layer(hint) ์ ๋ณด๋ฅผ ํ์ ๋ชจ๋ธ์ด ํ์ตํ๊ฒ ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ฏธ์ง์ ํน์ฑ์ ํ์ตํ๋ ๊ฒ์ด ์ค์ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ค๊ฐ์ Feature Map์ ํ์ตํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
๋ค์์ผ๋ก ์ด๋ป๊ฒ Knowledge๋ฅผ ์ ๋ฌํ๋๊ฐ์ธ Distillation์ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋ฅผ ํ๋ฉด ์๋์ ๊ฐ์ด ์ด 3๊ฐ์ง๋ก ๋ถ๋ฅ๊ฐ ๋ฉ๋๋ค.
(1) Offline Distillation : Pretrained Teacher๋ฅผ ๋ฏธ๋ฆฌ ๋ง๋ ํ Knowledge๋ฅผ ์ ๋ฌํจ
(2) Online Distillation : Teacher์ Student๋ฅผ ๋์์ ํ์ต๋๋ฉฐ ์๋ก Knowledge๋ฅผ ์ ๋ฌํจ
(3) Self-Distillation : ํ๋์ ๋ชจ๋ธ ๋ด๋ถ์์ Knowledge๋ฅผ ์ ๋ฌํจ
Inductive Bias๋, ๋ฐ์ดํฐ์ ๋ฌด๊ดํ๊ฒ ์ผ๋ฐํ ๋์์ ์ํฅ์ ๋ฏธ์น๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ์ผ๋ก, ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ํน์ ์๋ฃจ์
๊น์ง ์๋ ดํ ์ ์๋๋ก ๋์์ค๋๋ค. ์ ๋นํ Inductive Bias๋, ์ฐ๋ฆฌ๊ฐ ์ ํ๋ ๋ฐ์ดํฐ๋ ์ปดํจํ
ํ์๋ฅผ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ํ์ตํ๊ฑฐ๋, ํ์ต์ ์ฌ์ฉ๋ Train ๋ฐ์ดํฐ๊ฐ Test ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ๋ํ(perfectly representative)ํ์ง ๋ชปํ ๋ ์ค์ํ๊ฒ ์์ฉํ๊ฒ ๋ฉ๋๋ค. ๋ง์ฝ, Inductive Bias๊ฐ ์กด์ฌํ์ง ์๋๋ค๋ฉด, ๋ชจ๋ธ์ local minima์ ๋น ์ง ๊ฐ๋ฅ์ฑ์ด ์กด์ฌํ๋ฉฐ, ๋ชจ๋ธ์ initial state์ ํ์ต ๋ฐ์ดํฐ์ ์์์ ๋ฐ๋ผ์๋ ์๋ ด ๊ฐ์ด ๋ฐ๋ ์ ์์ต๋๋ค.
Image from "Transferring Inductive Biases through Knowledge Distillation (2020)
์ผ๋ฐ์ ์ผ๋ก Inductive Bias๋ฅผ ๋ชจ๋ธ์ ์ฃผ์
์ํค๋ ๋ฐฉ๋ฒ์ 4๊ฐ์ง๋ก ๊ฐ๊ฐ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
(1) Choose Appropriate Architecture : ์ ์ ํ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ ์๋ฅผ ํตํด
(2) Choose Appropriate Objective Function : ์ ์ ํ ๋ชฉ์ ํจ์๋ฅผ ํตํด
(3) Choose Appropriate Curriculum Method : ์ ์ ํ ์ปค๋ฆฌํ๋ผ์ ํตํด
(4) Choose Appropriate Optimization Method : ์ ์ ํ ์ต์ ํ๋ฅผ ํตํด
๋ณธ ๋
ผ๋ฌธ์์๋ ์ฌ๊ธฐ์ ํ๊ฐ์ง๋ฅผ ์ถ๊ฐํ์ฌ Knowledge Distillation(KD)๋ฅผ ํตํด์๋ Inductive Bias๋ฅผ ๋ชจ๋ธ์ ์ฃผ์
์ํฌ ์ ์๋ค๊ณ ์ด์ผ๊ธฐํ๊ณ ์์ต๋๋ค.
Inductive Bias์ ๋ํด ๋ ๊ถ๊ธํ์ ๋ถ๋ค์ ์ ์ด์ ํฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
๋ณธ ๋
ผ๋ฌธ์ Knowledge Distillation(KD)๊ฐ ์ผ๋ฐ์ ์ธ ์ฅ์ ์ธ ๋ชจ๋ธ ๊ฒฝ๋ํ ์ด์ธ์๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ํผ์ฉํด์ ์ธ ์ ์๋ค๋ ์ ์ ์ด์ผ๊ธฐํ๋ฉฐ, ์ด๋ฅผ ํ์ฉํ์ฌ ์ ์ ๋ชจ๋ธ์ Inductive Bias๋ฅผ ํ์์๊ฒ ์ ์ํ ์ ์์ง ์์๊น ์ด์ผ๊ธฐํฉ๋๋ค. ์๋ ๊ทธ๋ฆผ์ ๋
ผ๋ฌธ์์ ๋งํ๋ ๋ณธ ์ฐ๊ตฌ์ ๋ชฉ์ ์
๋๋ค. Knowledge Distillation(KD)๊ฐ ์ฒ์ ์๊ฐ๋ ๋
ผ๋ฌธ์์ ์ด์ ์ ์ ๋ชจ๋ธ์ด ํ์์๊ฒ ์ ๋ฌํ๋ ์ง์์ dark knowledge๋ผ๊ณ ์นญํ๋๋ฐ, ์ด๋ฌํ dark knowledge์ Inductive Bias๊ฐ ํฌํจ๋์ด ์์ง ์์๊น๋ผ๋ ์๋ฌธ์ ์ ์ ๊ธฐํฉ๋๋ค.
์ด๋ฅผ ์ฆ๋ช
ํ๊ธฐ ์ํด ์ ์๋ค์ ์๋์ ๊ฐ์ ๋๊ฐ์ง ์๋๋ฆฌ์ค๋ฅผ ๊ฐ์ง๊ณ ์คํ์ ์ ๊ฐํฉ๋๋ค. ๋จผ์ ์ฒซ ๋ฒ์งธ ์๋๋ฆฌ์ค๋ RNNs(์ ์ ๋ชจ๋ธ)๊ณผ Transformers(ํ์ ๋ชจ๋ธ), ๊ทธ๋ฆฌ๊ณ ๋ ๋ฒ์งธ ์๋๋ฆฌ์ค๋ CNNs(์ ์ ๋ชจ๋ธ)๊ณผ MLPs(ํ์ ๋ชจ๋ธ)์ผ๋ก ์คํ์ ์งํํฉ๋๋ค. ๋ณธ ์คํ์ (1) ์ ๋ง ์ ์ ๋ชจ๋ธ๋ค์ด ๊ฐ์ง๊ณ ์๋ Inductive Bias๊ฐ ์ผ๋ง๋ ์ ์๋ฏธํ๊ฐ๋ฅผ ๋ณด์ฌ์ฃผ๊ฐ, (2) ์ ์ ๋ชจ๋ธ์๊ฒ ์ง์์ ์ ์ ๋ฐ์ ํ์ ๋ชจ๋ธ์ด ์ ๋ง ์ ์ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ํ์ต์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด์ฌ์ฃผ๋ ๊ฐ๋ฅผ ๋ชฉ์ ์ผ๋ก ์์ ์๊ฐํ ๋ ์๋๋ฆฌ์ค๋ฅผ ๋ฐฐ๊ฒฝ์ผ๋ก ์คํ์ ์ ๊ฐํ์์ต๋๋ค.
๊ฐ๊ฐ์ ์๋๋ฆฌ์ค๋ค์ ๋ํด ์์ธํ ์ค๋ช
ํ๋ ๊ธ๋ก ์กฐ๋ง๊ฐ ์ฐพ์์ค๋๋ก ํ๊ฒ ์ต๋๋ค.
๊ธด ๊ธ ์ฝ์ด์ฃผ์
์ ๊ฐ์ฌํฉ๋๋ค! :)
Knowledge Distillation๋ผ๋ ๊ฐ๋ ์์ฒด๋ฅผ ์ฒ์ ์ ํด์ Teacher ๋ชจ๋ธ, Student ๋ชจ๋ธ ๊ฐ์ ํค์๋๋ค์ด ์์ํ๊ฒ ๋๊ปด์ง๋๊ตฐ์ ๊ทธ๋๋ Inductive bias๋ผ๋ ํค์๋๋ฅผ ํ๋ ์ ํ๊ณ ๊ฐ๋๊ตฐ์ ์ ์ตํ ๊ธ ๊ฐ์ฌํฉ๋๋ค^^