ABSTRACT
๋ชจ๋ธ์ด ์ ํด๋น prediction์ ๋ง๋๋์ง ์ดํดํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํจ. ๊ทธ๋ฌ๋ Ensemble ๋๋ ๋ฅ๋ฌ๋์ฒ๋ผ ๋ณต์ก๋๊ฐ ๋์ ๋ชจ๋ธ์ ํด์ํ๊ธฐ๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋๋ค์์. ๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์ SHAP(SHapely Additive exPlanations) ๋ถ์์ ์ ์ํจ. SHAP์ ๊ฐ feature์ ๋ํ importance ๊ฐ์ ๋ถ์ฌํจ. ๊ธฐ์กด์ ์กด์ฌํ๋ 6๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ํต์ผํจ์ผ๋ก์ ์๋ก์ด ๋ถ๊ฐ์ ์ธ feature importance๋ฅผ ๊ฐ์ง ํด๋์ค๋ฅผ ํ์ธํจ. ์ง๊ด์ ์ผ๋ก ์๋ฟ๋ ํด๋น ๋ฐฉ๋ฒ๋ก ์ ์ฑ๋ฅ ์ธก๋ฉด๊ณผ ์ง์์ฑ ์ธก๋ฉด์์๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์.
1. INTRODUCTION
- ๋จ์ํ ๋ชจ๋ธ์ ํด์ํ๋๋ฐ ๋ฌด๋ฆฌ๊ฐ ์์ผ๋, ๋ณต์กํ ๋ชจ๋ธ์ผ์๋ก ์ง๊ด์ ์ธ ์ดํด๊ฐ ์ด๋ ค์์ง. ๋ฐ๋ผ์ accuracy์ interpretbility์ trade-off๊ฐ ์กด์ฌํจ.
๋ฐ๋ผ์ ํด๋น ๋
ผ๋ฌธ์:
1) Explanation model: ๋ชจ๋ธ์ prediction์ ๋ํ ์ด๋ค ์ค๋ช
๋ ๋ชจ๋ธ ๊ทธ ์์ฒด๋ก ๋ณด๋ ๊ด์ ์ ์ ์ํจ. ๋ํ, ํด๋น ์ ๊ทผ์ additive feature attribution method๋ผ๋ ํด๋์ค๋ฅผ ์ ์ํ๊ฒ ๋จ.
2) ๊ฒ์ ์ด๋ก ๊ฒฐ๊ณผ: additive feature attribution method์ ์ ์ฒด ํด๋์ค๊ฐ uniqueํ ์๋ฃจ์
์ด ์์์ ๋ณด์ฅํจ. SHAP value๋ผ๋ ๊ฐ์ผ๋ก ํตํฉ๋ feature importance๋ฅผ ํํํจ.
3) SHAP value ์ถ์ ๋ฐฉ๋ฒ: ์ด๋ฏธ ์กด์ฌํ๋ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ์ง๊ด์ ์ด๋ผ๋ ๊ฒ์ ๋น๊ตํจ.
2. ADDITIVE FEATURE ATTRIBUTION METHODS
- ๋ชจ๋ธ์ prediction์ ์ดํดํ๋ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ '๋ชจ๋ธ ๊ทธ ์์ฒด๋ฅผ ์ดํด'ํ๋ ๊ฒ์ด๋ ensemble์ด๋ ๋ฅ๋ฌ๋ ์์ค์ ๋ชจ๋ธ์ ๊ทธ ์์ฒด๋ก ์ดํด๊ฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์.
=> ์๋ ๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅํ ๊ทผ์ฌ์น๋ก ์ ์ํ๋ ๋ ๊ฐ๋จํ Explanation Model ์ฌ์ฉ.
- Additive Feature Attribution Method: ์ด์ง variable์ ์ ํ function ํํ์ ๋ชจ๋ธ

ํ์ด๋ค์ด ๊ฐ feature์ ์ํฅ์ ์ฃผ๊ณ , ์ด ๊ฐ๋ค์ ๋ชจ๋ ๋ํ ๊ฒ์ ๊ทผ์ฌ๊ฐ์ด original ๋ชจ๋ธ์ f(x)๋ผ๋ ๊ฐ์ ์ ๋ ๋ชจ๋ธ์.
2.1 LIME
- LIME ๋ฐฉ๋ฒ๋ก ์ ๊ฐ ๋ชจ๋ธ์ prediction์ ์ง์ญ์ ๊ทผ์ฌ๋ฅผ ์ฌ์ฉํ์ฌ ํด์ํจ.
=> Additive Feature Attribution Method์ ๋์ผํจ. ๋ง์ฐฌ๊ฐ์ง๋ก ํ์ด๊ฐ์ ๊ตฌํ๊ธฐ ์ํด ์๋์ ํจ์์ argmin์ ๊ตฌํจ.

2.2, 2.3 DeepLIFT์ Layer-Wise Relevance Propagation
- ๋ฅ๋ฌ๋์ ์ํ Recursive prediction explanation method์ผ๋ก, 'summation to delta' ์ฑ์ง์ ์ฌ์ฉํ์ฌ feature์ ๋ํ reference ๊ฐ์ ์ ๊ณตํจ. ์ด ๋ํ Additive Feature Attribution Method์ ๋์ผํจ.
- Layer wise relevance propagation ๋ฐฉ๋ฒ์ deep network๋ฅผ ์ํ prediction์ ํด์ํจ. DeepLIFT์์ ๋ชจ๋ ๋ด๋ฐ์ refernce ํ์ฑํ๋ฅผ 0์ผ๋ก ์ฒ๋ฆฌํ ์ํ์ ๋์ผํจ.
2.4 Classic Shapley Value Estimation
- Shapley regression value: ์ ํ ํ๊ท์์์ feature importance๊ฐ์. ๊ฐ feature์ importance value๋ฅผ ํ ๋นํ๊ณ , ๊ทธ ์ํฅ์ ๊ณ์ฐํ๊ธฐ ์ํด ํด๋น feauture๊ฐ ์์ ๋์ ์์ ๋๋ฅผ ๊ฐ๊ฐ ํ์ตํ์ฌ ๋น๊ตํจ.

- ํ์ด๋ฅผ ๊ณ์ฐํ๋ ์์ ์์์์ ์ค๋ฅธ์ชฝ ์ฐจ์ด ๊ฐ์ด ํด๋น feature๊ฐ ์์ ๋์ ์์ ๋์ ๋น๊ต๊ฐ์.
+) ํด๋น ๋น๊ต๊ฐ์ weighted average๊ฐ์ ๋ถ์ฌํ์ฌ ๋ชจ๋ ๋ํ ๊ฒ์ด ํ์ด๊ฐ.
3. SIMPLE PROPERTIES UNIQUELY DETERMINE ADDITIVE FEATURE ATTRIBUTIONS
- Additive feature attribution method์ ์ฃผ๋ชฉํ ์ : ์๋์ ์ธ ๊ฐ์ง ์์ฑ์ ๋ชจ๋ ๋ง์กฑํ๋ ๊ณ ์ ํ(๋จ ํ๋์) ํด๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์.
=> 2.4์ Classic Shapley์์๋ ์๋ ค์ก์์ง๋ง 2.1 ~ 2.3์์๋ ๋ฐํ์ง์ง ์์์.
PROPERTY 01. Local Accuracy
- Original ๋ชจ๋ธ f๋ฅผ input x๊ฐ์ ๋ํด ๊ทผ์ฌํ ๋, local accuracy๋ x'(๋จ์ํ๋ input x๊ฐ)์ ๋ํด์ ์ต์ํ ๊ฒฐ๊ณผ๊ฐ์ Original ๋ชจ๋ธ๊ณผ ๋์ผํ๋๋ก ๋ง์ถ๋ ๊ฒ์.
x = hx(x')์ผ ๊ฒฝ์ฐ g(x'), ์ฆ ์ถ์ ๊ฐ์ด f(x), Original๊ณผ ๋์ผํจ.
PROPERTY 02. Missingness
- x' = 0์ธ ๊ฐ์ ๋ํด์๋ ํ์ด๋ฅผ 0์ผ๋ก ํ์ฌ attributed impact๊ฐ ์๋๋ก ์ ํํจ.
PROPERTY 03. Consistency

- z'์ ๋ํด Original ๊ฐ๊ณผ, ๋จ์ํํ z'์ output๊ฐ์ด ๋์ผํจ์ ๊ฐ์ ํ๊ณ , zi' = 0์ผ ๊ฒฝ์ฐ๋ฅผ z'\ ๋ผ๊ณ ์ค์ ํ์์ ๋, f' ๋ชจ๋ธ์ ๋ ๊ฐ์ ๋ํ ์ฐจ๊ฐ f ๋ชจ๋ธ์ ๋ ๊ฐ์ ๋ํ ์ฐจ๋ณด๋ค ํฌ๋ฉด, f'์ ํ์ด ๊ฐ์ด f์ ํ์ด ๊ฐ๋ณด๋ค ํผ.
4. THEOREM 01
- 1~3๋ฒ ์ฑ์ง์ ๋ํด ๋จ ํ๋์ ๊ฐ๋ฅํ additive feature attribution method๊ฐ ์์์ ๋ํ๋. ์ด ๊ฒฐ๊ณผ๋ Shapley value๋ฅผ ๋ฐํ์ผ๋ก ๋์ง ์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ๋ค์ local accuracy์ consistency๋ฅผ ์๋ฐํจ์ ์ ์ ์์.
=> ๊ฒฐ๋ก ์ ํด๋น Additive feature attribution method๊ฐ ์ด ๋ ๊ฐ์ง ์์๋ฅผ violateํจ์ผ๋ก classic shapley method์ชฝ์ ๋ ๋ฐ์ ์์ผ์ผ ํ๋ค๋ ๊ฒ
4. SHAP Values
- ํตํฉ๋ Feature importance๋ก ํด๋น SHAP value๋ฅผ ์ ์ํจ. SHAP ๊ฐ์ ๋จ ํ๋์ additive feature importance measure๋ฅผ, ์ฑ์ง 1~3์ ์๋ฐํ์ง ์๊ณ ์ ๊ณตํ ์ ์์.
- ์ ํํ SHAP ๊ฐ์ ์ธก์ ํ๋ ๊ฒ์ ๋งค์ฐ ๋ณต์กํ์ฌ ํด๋น ๊ฐ์ ๊ทผ์ฌํจ.
1) Shapley Sampling Value
2) Max SHAP, Deep SHAP
=> ํด๋น ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ๋จ์ํํ๊ธฐ ์ํด์๋ feauture ๋
๋ฆฝ์ฑ๊ณผ ๋ชจ๋ธ์ ์ ํ์ฑ์ ๊ฐ์ ํด์ผ ํจ.

Max SHAP
- ๊ฐ input ๊ฐ์ด ์ผ๋ง๋ maximum value๋ฅผ ์ฆ๊ฐ์ํค๋์ง์ ๋ํ ํ๋ฅ ์ Shapley value๋ฅผ ์ด์ฉํ์ฌ ๊ตฌํ ์ ์์.
Deep SHAP
- Deep LIFT์ Shapley Value๋ฅผ ํจ๊ป ์ฌ์ฉํ ๊ฒ์ผ๋ก, Deep LIFT๋ SHAP value๋ฅผ input feature๋ค์ด ์๋ก ๋
๋ฆฝ์ ์ด๋ฉฐ, deep model์ด ์ ํ์ ์ด๋ผ๋ ๊ฐ์ ํ์ ๊ทผ์ฌํจ.
+) Deep LIFT๊ฐ local accuracy์ missingness๋ฅผ ๋ง์กฑํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ฏ๋ก consistency๋ง ๋ง์กฑํ๋ค๋ฉด ํด๋น Shapley value๊ฐ ๊ณ ์ ํ attribution์ ๋ํ๋ผ ์ ์์.
5. COMPUTATIONAL AND USER STUDY EXPERIMENTS

-
Computational ํจ์จ์ฑ: Kernal SHAP์ ํตํด ๋ ์ ํํ ๊ทผ์ฌ๋ฅผ ๋ ์ ์ ๋น๊ต๋ฅผ ํตํด์ ๊ฐ๋ฅํด์ง. ์คํ ๊ฒฐ๊ณผ local accuracy์ consistency๋ฅผ ๋ง์กฑํ๋ SHAP value์ ๋ฐ๋ผ์ Kernel SHAP๊ณผ LIME์ ํจ์จ์ฑ์ ์ฐจ์ด๊ฐ ๊ทน๋ช
ํด์ง.
-
์ค๋ช
์ง๊ด์ฑ: ์ข์ ๋ชจ๋ธ = ์ค๋ช
์ ์ผ๊ด์ฑ์ด๋ผ๋ ๊ฐ์ ํ์ testing์ ์งํํจ. Sickness Score, Max allocation์ ํตํด ์คํ ์ฐธ๊ฐ์๋ค์๊ฒ input๊ฐ์ ๋ํ credit์ ๋ถ์ฌํ๋ผ๊ณ ์คํ์ ์งํํจ. SHAP ๋ถ์์ ๊ฒฐ๊ณผ๊ฐ์ด ์ฐธ๊ฐ์๋ค์ ์ง๊ด๊ณผ ๊ฐ์ฅ ๋ถํฉํ์์.

6. CONCLUSION
- SHAP์ ๋ชจ๋ธ prediction์ accuracy๊ณผ interpretibility ๊ฐ์ trade-off๋ฅผ ํด์ํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ ๋ฉ์๋๋ฅผ ์ ์ํ๋ฉฐ, ์ฌ๋ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํฌํจํ๋ ์ด์์ ์ธ ์๋ฃจ์
์ ์ ์ํจ. ์์ผ๋ก๋ ๋ ๋น ๋ฅด๊ณ ๋ชจ๋ธ ์ ํ์ ํนํ๋ SHAP ๊ฐ ์ถ์ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๊ณ , ์๋ก์ด ํด์ ๋ชจ๋ธ ํด๋์ค๋ฅผ ์ ์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ.
** ๊ผญ์ง: ํด๋น ๋ถ์์ด ๋ธ๋๋ฐ์ค์๋ AI๋ฅผ ์ค๋ช
ํ๊ธฐ ์ํ ์ข์ ์ธ์ฌ์ดํธ๊ฐ ๋์ด ์ค ์ ์์ ๊ฒ ๊ฐ์์ ์ ๊ธฐํ์. ๊ทธ๋ฌ๋ DNN ๋ชจ๋ธ์ด๋ Ensemble ๋ชจ๋ธ์ ์ค๋ช
ํ๊ธฐ ์ํด input feature๋ค์ด ๋ชจ๋ ๋
๋ฆฝ์ด๋ฉฐ, ์ ํ์ ์ด๋ผ๋ ๊ฐ์ ํ์ ๋ถ์์ ํ๋ค๋ ์ ์ด ์กฐ๊ธ ์์ํ์. ๊ต์ฅํ ๋ณต์กํ NN ๋ชจ๋ธ์ด๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ๋ฑ์๋ ์ ์ฉ์ด ๊ฐ๋ฅํ ์ง ๊ถ๊ธํจ.