*설명가능한 AI(XAI)는 인공지능 모델이 내리는 의사결정 과정을 사람이 이해할 수 있도록 해석하는 연구 분야입니다. 특히 딥러닝과 같은 복잡한 블랙박스 모델**의 결과를 설명해줌으로써, 신뢰성·투명성·책임성을 확보하는 것이 목표입니다.
예를 들어, 의료 진단에서 AI가 “폐렴 가능성이 높다”라고 판단했을 때, 어떤 특징(엑스레이 이미지의 특정 부분 등)이 결정에 기여했는지를 의사에게 알려줄 수 있어야 합니다.
XAI의 필요성
- 신뢰성 확보: 사용자가 AI의 판단 근거를 알 수 있어야 결과를 신뢰 가능
- 법적·윤리적 요구: 금융·의료 등 고위험 영역에서 설명 책임(책무성) 요구
- 모델 개선: 모델의 오류 원인을 분석해 성능 향상 가능
- 사용자 수용성: 전문가 및 일반 사용자가 결과를 받아들이기 쉽게 함
대표적인 설명 기법
XAI 기법은 크게 모델 내재적(Intrinsic) 기법과 사후적(Post-hoc) 기법으로 나눌 수 있습니다.
1. 모델 내재적 기법 (Intrinsic)
모델 자체가 해석 가능하도록 설계하는 방법입니다.
- 선형 회귀, 로지스틱 회귀: 가중치(회귀계수)가 곧 특징 중요도
- 의사결정트리 (Decision Tree): 트리 구조가 “조건 → 결과” 흐름을 직관적으로 보여줌
- 규칙 기반 모델 (Rule-based Model): IF–THEN 규칙으로 설명 가능
- Generalized Additive Models (GAMs): 각 특징의 영향이 더해지는 구조라 해석 용이
→ 장점: 해석 용이
→ 단점: 복잡한 문제(이미지, 텍스트 등)에는 성능이 부족할 수 있음
2. 사후적(Post-hoc) 기법
복잡한 블랙박스 모델(딥러닝 등)의 결과를 나중에 해석하는 방법입니다.
(1) 피처 중요도 기반
- Permutation Importance: 특정 특징을 섞어 모델 성능 저하를 관찰 → 중요도 측정
- SHAP (SHapley Additive exPlanations): 게임이론적 접근, 각 특징이 기여한 정도를 공정하게 분배
- LIME (Local Interpretable Model-agnostic Explanations): 입력 근처에서 단순한 선형모델을 학습하여 국소적 설명 제공
(2) 시각적 설명
- Saliency Map: 이미지 분류에서, 출력에 민감한 픽셀 위치를 시각적으로 강조
- Grad-CAM (Gradient-weighted Class Activation Mapping): CNN의 특정 클래스에 기여한 이미지 영역을 하이라이트
- Integrated Gradients: 입력의 각 특징이 예측에 기여한 정도를 경로적분으로 계산
(3) 대체 모델(Surrogate Model)
- 복잡한 모델을 흉내 내는 단순 모델(예: 결정트리)을 학습 → 원래 모델의 동작을 간접적으로 설명
(4) 사례 기반 설명
- Counterfactual Explanation: “만약 이 특징이 달랐다면 결과가 어떻게 변했을까?” (예: 대출 거절 → 소득을 X만큼 높이면 승인)
- Prototype & Criticism: 대표 사례(prototype)와 반례(criticism)를 제시하여 모델의 의사결정 근거 설명
정리 표
| 구분 | 대표 기법 | 설명 방식 | 장점 | 단점 |
|---|
| 내재적 | 선형모델, 결정트리, GAM | 모델 구조 자체가 해석 가능 | 직관적, 간단 | 복잡한 문제에 약함 |
| 사후적 - 피처 중요도 | LIME, SHAP, Permutation | 각 특징의 기여도 산출 | 범용성, 수학적 근거 | 계산 비용 큼 (특히 SHAP) |
| 사후적 - 시각화 | Saliency Map, Grad-CAM, IG | 입력(이미지, 텍스트)의 기여 부분 시각화 | 직관적 이해 용이 | 잡음 포함 가능 |
| 사후적 - 대체 모델 | Surrogate Tree | 블랙박스를 단순 모델로 근사 | 직관적 설명 | 근사 품질이 낮으면 오류 가능 |
| 사후적 - 사례 기반 | Counterfactual, Prototype | 실제/가상 사례로 설명 | 사용자가 쉽게 이해 | 생성의 어려움 |
🔍 사후적(Post-hoc) 설명 기법 상세 설명
1. 피처 중요도 기반 기법
(1) Permutation Importance
- 원리: 특정 특징(feature)의 값을 무작위로 섞어 모델 입력에 넣어봅니다. → 해당 특징이 모델 예측에 실제로 기여했다면, 성능(Accuracy, AUC 등)이 눈에 띄게 떨어짐.
- 수식적 아이디어:
Importance(f)=M−Mπ(f)
- M: 원래 모델의 성능
- Mπ(f): 특징 f를 무작위로 섞었을 때의 성능
- 장점: 모델 구조에 상관없이 사용 가능, 직관적
- 단점: 계산 비용이 크고, 특징 간 상관관계가 높은 경우 중요도 왜곡 발생
(2) LIME (Local Interpretable Model-agnostic Explanations)
- 원리:
- 설명하고 싶은 특정 샘플 x 주변에 무작위로 데이터 포인트를 생성 (perturbation)
- 원래 모델의 예측값을 이 데이터에 대해 얻음
- 그 결과를 바탕으로 단순한 해석 가능한 모델(선형 회귀, 결정트리 등)을 학습
- 이 단순 모델의 가중치를 근사적 설명으로 사용
- 수식 아이디어:
ξ(x)=argg∈GminL(f,g,πx)+Ω(g)
- f: 원래 블랙박스 모델
- g: 단순 근사 모델(설명용)
- πx: x 근처에서의 가중치 분포
- Ω(g): 모델 복잡도 패널티
- 장점: 국소적(local) 설명이 가능, 모델 불문
- 단점: 데이터 생성 방식에 따라 결과가 불안정할 수 있음, 샘플마다 설명이 달라질 수 있음
(3)
SHAP (SHapley Additive exPlanations)
- 원리: 게임이론의 셰플리 값(Shapley value) 개념을 차용. 각 특징이 모델 예측에 기여한 정도를 “공정하게 분배”하는 방식.
- 수식:
ϕi(f,x)=S⊆F∖{i}∑∣F∣!∣S∣!(∣F∣−∣S∣−1)!(f(S∪{i})−f(S))
- F: 전체 특징 집합
- S: 특정 특징 부분집합
- f(S): S만 사용했을 때 모델 출력
- ϕi: 특징 i의 공헌도
- 장점: 이론적으로 유일한 공정한 기여도 분배 방법 (게임이론적 보장)
- 단점: 특징 수가 많으면 계산량이 지수적 폭발 (근사 알고리즘 사용 필요, e.g. KernelSHAP, TreeSHAP)
2. 시각적 설명 기법 (주로 딥러닝 이미지 분야)
(1) Saliency Map
- 원리: 모델 출력에 대해 입력 이미지의 gradient(∂output/∂pixel)를 계산 → 큰 기울기를 가진 픽셀은 출력에 민감하다는 뜻
- 장점: 간단하고 직관적
- 단점: 잡음이 많고 해석이 모호할 수 있음
(2) Grad-CAM (Gradient-weighted Class Activation Mapping)
- 원리: CNN의 마지막 Convolution Layer의 feature map에 gradient 가중치를 곱해 해당 클래스에 중요한 영역을 강조
- 수식 아이디어:
LGrad−CAMc=ReLU(k∑αkcAk)
- Ak: k번째 feature map
- αkc=Z1∑i∑j∂Aijk∂yc: 클래스 c에 대한 중요도
- 장점: 사람이 보기 좋은 “히트맵” 형태 제공
- 단점: 해상도가 낮음, conv layer 위치 선택에 따라 결과 차이
(3) Integrated Gradients (IG)
- 원리: 입력 x와 “기준점(baseline)” x’을 설정. baseline에서 x로 이동하는 경로에서의 gradient를 적분하여 각 특징의 기여도를 계산.
- 수식:
IGi(x)=(xi−x’i)×∫α=01∂xi∂F(x’+α(x−x’))dα
- 장점: 이론적 성질 (완전성, 선형성 등) 보장
- 단점: baseline 선택이 중요, 적분 근사를 위해 계산량이 많음
3. 대체 모델 (Surrogate Model)
- 원리: 복잡한 블랙박스 모델을 “가짜 모델(흉내 모델)“로 단순화하여 설명 예: Random Forest → 근사적인 결정트리 학습
- 장점: 전역적(Global) 설명 가능
- 단점: 근사 품질이 낮으면 잘못된 설명 위험
4. 사례 기반 기법 (Case-based Explanations)
(1) Counterfactual Explanation
- 원리: “만약 입력 특징이 이렇게 달랐다면 결과가 어떻게 변할까?”
- 예시:
- 원래: “대출 거절”
- Counterfactual: “소득이 300만 원 더 많았다면 대출 승인”
- 장점: 사람에게 직관적, actionable insight 제공
- 단점: 현실적이지 않은 counterfactual 생성 가능
(2) Prototype & Criticism
- 원리:
- Prototype: 모델이 어떤 클래스의 대표 사례라고 생각하는 입력
- Criticism: Prototype만으로 설명되지 않는 예외적 사례
- 장점: 사용자에게 이해하기 쉬운 예시 기반 설명 제공
- 단점: 대표 사례 선정 방법에 따라 편향 발생
📌 요약
- Permutation Importance: 특징 중요도 (무작위 섞기)
- LIME: 국소적 선형 근사
- SHAP: 공정한 기여도 분배 (게임이론 기반)
- Saliency Map: gradient 기반 민감도
- Grad-CAM: CNN 특징 맵 + gradient 가중치 → 히트맵
- Integrated Gradients: baseline → 입력까지 gradient 적분
- Surrogate Model: 단순 모델로 블랙박스 근사
- Counterfactual / Prototype: 사례 기반 설명