XAI, eXplainable AI

이영진·2025년 4월 22일

데이터분석 및 MLOps

목록 보기

5/7

모델을 해석한다는 것의 의미, 모델의 과정을 알기 위해서…

어떠한 모델을 사용하더라고 Input과 Output이 존재하기 마련

특정 피처의 중요도를 평가하기 위해, 해당 피처의 값을 무작위로 섞어서 모델 성능이 얼마나 떨어지는지 측정하는 방법.

특정 Feature 값들을 임의로 섞으면 모형 성과는 얼마나 나빠질까
- 임의의 값들에 대해서 생소한 Random 값보다 실제 있을법한 기존 값들을 재배치하자
모형성과는..?
- 재학습하지 말고 기존의 학습된 모형에 Original set VS Permutation set을 예측하여 오차를 비교

예시 흐름:

용어	의미
Permutation set	특정 피처(column)의 값을 무작위로 섞은 데이터셋 (다른 변수들의 값은 고정)
목적	그 피처가 모델 예측에 얼마나 기여하는지 확인
관점	"이 피처 없으면 예측이 얼마나 망가지냐?"를 보려는 것

항목	설명
의미	피처의 값을 랜덤으로 섞은 데이터셋
사용 목적	모델이 해당 피처에 얼마나 의존하고 있는지 측정
장점	모델 내부를 열어보지 않고도 피처 중요도 추정 가능 (Black-box 모델에서도 사용 가능)
적용 도구	`scikit-learn`, `eli5`, SHAP 등에서 지원

이런 과정을 통해서 각 Feature에 대한 Importance를 얻을 수 있음

하지만, 이러한 중요도를 구하는 과정을 어떤 데이터를 사용해야 할까?

현재 모델의 예측력을 사용하면서, 가볍고 해석가능한 대리 모델의 설명력을 활용

해석이 어려운 블랙박스 모델의 예측에 근사하도록 훈련된 해석가능한 대리모델 사용하여 블랙박스 모델에 대한 설명력을 제공

데이터를 대표할 수 있는 데이터들(대표표본)

0~1의 스케일로 회귀식의 설명력을 표현하는 것과 같은 구조로 표현

해석이 가능하면 어떤 모델이든지 사용할 수 있는 유연함
사용자와의 접근성에 따라 대리 모델을 선택할 수 있고, Multi-Surrogate 모델 구성 등 설명력의 제공 방식이 열려 있음

Ex) D/L계열의 Original 모델을 통해 예측력 제공 + 선택/Tree 2가지 대리모델을 통해 다각도 설명력을 제시

Ex) 평소 회귀분석 결과로 Comm.을 하던 업무방식 → 선택 대리모델을 통해 설명력을 제공

설명하고자 하는 관측치에 초점을 맞춰서 해석가능한 대리 모델을 활용

기존 학습 모델을 교체하더라도 로컬 대리 모델을 사용하여 동일한 설명력을 제공할 수 있음

Ex) "Decision Tree" 방식의 설명력 제공에 익숙한 사용자, 기존 모델(SVM)보다 더 나은 예측력을 제공하는 신모델(DL)이 있을 때, SVM모델을 교체하더라도 “Decision Tree”의 설명력을 계속 제공할 수 있음
Local Surrogate Model을 통해서 해석에 중요한 Feature로 설명력을 제공할 수 있음

Ex) Black-box Model은 PCA(주성분), 변수변환에 의한 Feature를 사용하여 예측값을 제공하지만, Local Surrogate Model은 Black-box Model이 생성한 Feature와 다르게 원본 Feature를 활용한 설명력을 제공할 수 있음
Image, Text 등 비정형 데이터에 대해서도 유연하게 작동