๐ Title: Unlearn What You Want to Forget: Efficient Unlearning for LLMs
๐ Year: 2023
๐ Publish: ACL
๐ค Author: Chen & Yang
๐ย Link: https://arxiv.org/abs/2310.20150
๐ Summary:
๋ณธ ๋ ผ๋ฌธ์ Language model์ ๋ํ Target data influence removal ๋ชฉ์ ์ unlearning ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ EUL์ ํต์ฌ ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋ ์ ์์ต๋๋ค.
- LLM์ multi-task nature, ๊ทธ๋ฆฌ๊ณ LLM์ ๊ฑฐ๋ํ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ๋ํด ํ์ต๋๋ฏ๋ก task๋ง๋ค, forgetting target๋ง๋ค unlearning์ ์ํํ๋ ๊ฒ์ inefficient
- ๋ฐ๋ผ์ ๋งค๋ฒ ๋ฌ๋ผ์ง๋ task์ forgetting target์ ๋ํด ์๋ก unlearnํ ํ์ ์์ด, Original LLM์ ์ ์งํ ์ฑ๋ก ์์ ํฌ๊ธฐ์ โunlearning layerโ๋ฅผ pluggingํ๋ ๊ฒ๋ง์ผ๋ก ๋ค์ํ task์ target์ ๋ํ forget model๋ก switchํ ์ ์๋ค.
- ์ด๋ฌํ โunlearning layerโ๋ ๊ฐ task์ target์ ๋ํด, ์ ์๋ objective๋ฅผ ์ต์ ํ ํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ์ฌ ๊ตฌํ ์ ์๋ค. (์ด ๋, LLM์ freeze)
- Multiple target์ ๋ํ โunlearning layerโ๋ฅผ ๊ตฌํ๊ณ ์ถ์ ๊ฒฝ์ฐ, ๊ฐ๋ณ target์ ๋ํ โunlearning layerโ๋ฅผ proposed method์ ๋ฐ๋ผ fusionํ์ฌ ๊ตฌํ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ EUL์ scheme์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Unlearning layer๋ FF network ๋ค์ plug๋๋ฉฐ, ๋ ผ๋ฌธ ์์์๋ adapter๋ผ๊ณ ๋ง ํํ๋์ด ์์ด์ ์ ํํ ์ํคํ ์ฒ๋ ์ฝ๋๋ฅผ ์ดํด๋ด์ผ ํ ๊ฒ ๊ฐ์ต๋๋ค.
- ์ถ๊ฐ๋ก, LLM์ ์กด์ฌํ๋ ๋ชจ๋ transformer layer์ ์ฝ์ ๋๋ ๊ฒ์ธ์ง๋ ๋ฐ๋ก ๋์์์ง ์์์ ์ฝ๋๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ค์์ unlearning layer๋ฅผ ํ์ตํ๋ objective์ ๋ํ ๋ด์ฉ์ ๋๋ค.
์ด ๋ ๊ฐ loss๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. (F(.)๋ orignial model, F(f(.))๋ updated model)
KL Loss
- KL Loss๋ Original ๋ชจ๋ธ์ ๋ํ output ๋ถํฌ์ Unlearned Model(plugged model)์ ๋ํ output ๋ถํฌ์ KL-Divergence๊ฐ, retain set์ ๊ฒฝ์ฐ ์๋๋ก(๊ฐ๊น๋๋ก) forget set์ ๊ฒฝ์ฐ ํฌ๋๋ก(๋ฉ๋๋ก) teacher-student manner๋ก ํ์ตํฉ๋๋ค.
Task loss
- retain set์ ๋ํด ์ ์๋ task์ ๋ํ ์ฑ๋ฅ ์ ์ง์ ๋ํ loss ์ ๋๋ค.
LM loss
- ์ F(.)๋ฅผ pretraining ํ ๋ ์ฌ์ฉํ์๋ loss์ ๋๋ค. ์ด๋ฅผํ ๋ฉด masked language model์ ๊ฒฝ์ฐ
- forgetting target์ ๋ํ task ์ฑ๋ฅ์ ๋ฎ์ถ๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ, target์ด ๊ทธ ์ด๋ ํ ๋ต๋ณ generation์ค์๋ ํฌํจ๋์ง ์๋๋ก ์ ๋ํ๊ธฐ ์ํ loss๋ก ์ดํดํ์์ต๋๋ค.
๋ค์์ fusion mechanism ์ ๋๋ค.
Fusion mechanism์ ๋ชฉ์ ์ ์๋ก ๋ค๋ฅธ unlearning layer ๋ฅผ ์์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ์์ ๋, ์ด๋ฅผ ๋จ์ผํ unlearning layer ์ผ๋ก mergeํ๊ธฐ ์ํจ์ ๋๋ค.
์์ ์์ linear regression problem์ด๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ closed-form solution์ ๊ฐ์ง๋๋ค.
์์ ๊ฐ์ด ๊ตฌํ ์ pluggingํจ์ผ๋ก์จ mutlple task ๋๋ target์ ๋ํ unlearned model์ ๊ตฌํด๋ผ ์ ์์ต๋๋ค.
๋ค์์ ์คํ์ ๋๋ค. ์คํ์ T5(base, 3B) ๋ชจ๋ธ์ ๋ํด IMDB๋ฅผ ์ด์ฉํ Sentiment classification, SAMSum์ ์ด์ฉํ summary generation ๋ ๊ฐ์ง์ task์ ๋ํด ์ํ๋์์ต๋๋ค.
Baseline์ Retrain, FT, SISA, Reverse-Gradient(GA)๋ฅผ ๋๊ณ Forget set acc, Retain set acc, Test acc, MLM Loss, RTE๋ก ํ๊ฐํ์ฌ ๋น๊ตํ์์ต๋๋ค.
MLM loss๋ forget data, ๋๋ ๊ด๋ จ๋ entity์ action์ mask ํ ํฐ์ผ๋ก ์ฒ๋ฆฌ ํ, โPredict the masked wordโ๋ผ๋ ํ ํ๋ฆฟ์ ์ ์ฉํ์ฌ, ๋ชจ๋ธ๋ก๋ถํฐ forget data๋ฅผ ์ผ๋ง๋ ์ ์ถ์ถํด๋ผ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ์งํ์ ๋๋ค. ๋ง์คํนํ ๋์์ AllenNLP๋ผ๋ pretrained NER ๋ชจ๋ธ์ ํตํด ์ถ์ถํ์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
IMDB / T5-base
SAMSum / T5-base
ํผ๊ฐ์ ~