설명가능한 AI (XAI, Explainable AI)

쌀과자AI·2025년 9월 3일

목록 보기

1/5

*설명가능한 AI(XAI)는 인공지능 모델이 내리는 의사결정 과정을 사람이 이해할 수 있도록 해석하는 연구 분야입니다. 특히 딥러닝과 같은 복잡한 블랙박스 모델**의 결과를 설명해줌으로써, 신뢰성·투명성·책임성을 확보하는 것이 목표입니다.

예를 들어, 의료 진단에서 AI가 “폐렴 가능성이 높다”라고 판단했을 때, 어떤 특징(엑스레이 이미지의 특정 부분 등)이 결정에 기여했는지를 의사에게 알려줄 수 있어야 합니다.

XAI의 필요성

신뢰성 확보: 사용자가 AI의 판단 근거를 알 수 있어야 결과를 신뢰 가능
법적·윤리적 요구: 금융·의료 등 고위험 영역에서 설명 책임(책무성) 요구
모델 개선: 모델의 오류 원인을 분석해 성능 향상 가능
사용자 수용성: 전문가 및 일반 사용자가 결과를 받아들이기 쉽게 함

대표적인 설명 기법

XAI 기법은 크게 모델 내재적(Intrinsic) 기법과 사후적(Post-hoc) 기법으로 나눌 수 있습니다.

1. 모델 내재적 기법 (Intrinsic)

모델 자체가 해석 가능하도록 설계하는 방법입니다.

선형 회귀, 로지스틱 회귀: 가중치(회귀계수)가 곧 특징 중요도
의사결정트리 (Decision Tree): 트리 구조가 “조건 → 결과” 흐름을 직관적으로 보여줌
규칙 기반 모델 (Rule-based Model): IF–THEN 규칙으로 설명 가능
Generalized Additive Models (GAMs): 각 특징의 영향이 더해지는 구조라 해석 용이

→ 장점: 해석 용이

→ 단점: 복잡한 문제(이미지, 텍스트 등)에는 성능이 부족할 수 있음

2. 사후적(Post-hoc) 기법

복잡한 블랙박스 모델(딥러닝 등)의 결과를 나중에 해석하는 방법입니다.

(1) 피처 중요도 기반

Permutation Importance: 특정 특징을 섞어 모델 성능 저하를 관찰 → 중요도 측정
SHAP (SHapley Additive exPlanations): 게임이론적 접근, 각 특징이 기여한 정도를 공정하게 분배
LIME (Local Interpretable Model-agnostic Explanations): 입력 근처에서 단순한 선형모델을 학습하여 국소적 설명 제공

(2) 시각적 설명

Saliency Map: 이미지 분류에서, 출력에 민감한 픽셀 위치를 시각적으로 강조
Grad-CAM (Gradient-weighted Class Activation Mapping): CNN의 특정 클래스에 기여한 이미지 영역을 하이라이트
Integrated Gradients: 입력의 각 특징이 예측에 기여한 정도를 경로적분으로 계산

(3) 대체 모델(Surrogate Model)

복잡한 모델을 흉내 내는 단순 모델(예: 결정트리)을 학습 → 원래 모델의 동작을 간접적으로 설명

(4) 사례 기반 설명

Counterfactual Explanation: “만약 이 특징이 달랐다면 결과가 어떻게 변했을까?” (예: 대출 거절 → 소득을 X만큼 높이면 승인)
Prototype & Criticism: 대표 사례(prototype)와 반례(criticism)를 제시하여 모델의 의사결정 근거 설명

정리 표

구분	대표 기법	설명 방식	장점	단점
내재적	선형모델, 결정트리, GAM	모델 구조 자체가 해석 가능	직관적, 간단	복잡한 문제에 약함
사후적 - 피처 중요도	LIME, SHAP, Permutation	각 특징의 기여도 산출	범용성, 수학적 근거	계산 비용 큼 (특히 SHAP)
사후적 - 시각화	Saliency Map, Grad-CAM, IG	입력(이미지, 텍스트)의 기여 부분 시각화	직관적 이해 용이	잡음 포함 가능
사후적 - 대체 모델	Surrogate Tree	블랙박스를 단순 모델로 근사	직관적 설명	근사 품질이 낮으면 오류 가능
사후적 - 사례 기반	Counterfactual, Prototype	실제/가상 사례로 설명	사용자가 쉽게 이해	생성의 어려움

🔍 사후적(Post-hoc) 설명 기법 상세 설명

1. 피처 중요도 기반 기법

(1) Permutation Importance

원리: 특정 특징(feature)의 값을 무작위로 섞어 모델 입력에 넣어봅니다. → 해당 특징이 모델 예측에 실제로 기여했다면, 성능(Accuracy, AUC 등)이 눈에 띄게 떨어짐.
수식적 아이디어:
$\text{Importance}(f) = M - M^{\pi(f)}$
- $M$ : 원래 모델의 성능
- $M^{\pi(f)}$ : 특징 f를 무작위로 섞었을 때의 성능
장점: 모델 구조에 상관없이 사용 가능, 직관적
단점: 계산 비용이 크고, 특징 간 상관관계가 높은 경우 중요도 왜곡 발생

(2) LIME (Local Interpretable Model-agnostic Explanations)

원리:
1. 설명하고 싶은 특정 샘플 x 주변에 무작위로 데이터 포인트를 생성 (perturbation)
2. 원래 모델의 예측값을 이 데이터에 대해 얻음
3. 그 결과를 바탕으로 단순한 해석 가능한 모델(선형 회귀, 결정트리 등)을 학습
4. 이 단순 모델의 가중치를 근사적 설명으로 사용
수식 아이디어:
$\xi(x) = \arg\min_{g \in G} \; L(f, g, \pi_x) + \Omega(g)$
- $f$ : 원래 블랙박스 모델
- $g$ : 단순 근사 모델(설명용)
- $\pi_x$ : $x$ 근처에서의 가중치 분포
- $\Omega(g)$ : 모델 복잡도 패널티
장점: 국소적(local) 설명이 가능, 모델 불문
단점: 데이터 생성 방식에 따라 결과가 불안정할 수 있음, 샘플마다 설명이 달라질 수 있음

(3)

SHAP (SHapley Additive exPlanations)

원리: 게임이론의 셰플리 값(Shapley value) 개념을 차용. 각 특징이 모델 예측에 기여한 정도를 “공정하게 분배”하는 방식.
수식:
$\phi_i(f, x) = \sum_{S \subseteq F \setminus \{i\}} \frac{|S|! \, (|F| - |S| - 1)!}{|F|!} \Big( f(S \cup \{i\}) - f(S) \Big)$
- $F$ : 전체 특징 집합
- $S$ : 특정 특징 부분집합
- $f(S)$ : S만 사용했을 때 모델 출력
- $\phi_i$ : 특징 i의 공헌도
장점: 이론적으로 유일한 공정한 기여도 분배 방법 (게임이론적 보장)
단점: 특징 수가 많으면 계산량이 지수적 폭발 (근사 알고리즘 사용 필요, e.g. KernelSHAP, TreeSHAP)

2. 시각적 설명 기법 (주로 딥러닝 이미지 분야)

(1) Saliency Map

원리: 모델 출력에 대해 입력 이미지의 gradient(∂output/∂pixel)를 계산 → 큰 기울기를 가진 픽셀은 출력에 민감하다는 뜻
장점: 간단하고 직관적
단점: 잡음이 많고 해석이 모호할 수 있음

(2) Grad-CAM (Gradient-weighted Class Activation Mapping)

원리: CNN의 마지막 Convolution Layer의 feature map에 gradient 가중치를 곱해 해당 클래스에 중요한 영역을 강조
수식 아이디어:
$L^c_{Grad-CAM} = \text{ReLU}\Big(\sum_k \alpha_k^c A^k \Big)$
- $A^k$ : k번째 feature map
- $\alpha_k^c = \frac{1}{Z} \sum_i \sum_j \frac{\partial y^c}{\partial A^k_{ij}}$ : 클래스 c에 대한 중요도
장점: 사람이 보기 좋은 “히트맵” 형태 제공
단점: 해상도가 낮음, conv layer 위치 선택에 따라 결과 차이

(3) Integrated Gradients (IG)

원리: 입력 x와 “기준점(baseline)” x’을 설정. baseline에서 x로 이동하는 경로에서의 gradient를 적분하여 각 특징의 기여도를 계산.
수식: $IG_i(x) = (x_i - x’i) \times \int{\alpha=0}^1 \frac{\partial F(x’ + \alpha (x - x’))}{\partial x_i} d\alpha$
장점: 이론적 성질 (완전성, 선형성 등) 보장
단점: baseline 선택이 중요, 적분 근사를 위해 계산량이 많음

3. 대체 모델 (Surrogate Model)

원리: 복잡한 블랙박스 모델을 “가짜 모델(흉내 모델)“로 단순화하여 설명 예: Random Forest → 근사적인 결정트리 학습
장점: 전역적(Global) 설명 가능
단점: 근사 품질이 낮으면 잘못된 설명 위험

4. 사례 기반 기법 (Case-based Explanations)

(1) Counterfactual Explanation

원리: “만약 입력 특징이 이렇게 달랐다면 결과가 어떻게 변할까?”
예시:
- 원래: “대출 거절”
- Counterfactual: “소득이 300만 원 더 많았다면 대출 승인”
장점: 사람에게 직관적, actionable insight 제공
단점: 현실적이지 않은 counterfactual 생성 가능

(2) Prototype & Criticism

원리:
- Prototype: 모델이 어떤 클래스의 대표 사례라고 생각하는 입력
- Criticism: Prototype만으로 설명되지 않는 예외적 사례
장점: 사용자에게 이해하기 쉬운 예시 기반 설명 제공
단점: 대표 사례 선정 방법에 따라 편향 발생

📌 요약

Permutation Importance: 특징 중요도 (무작위 섞기)
LIME: 국소적 선형 근사
SHAP: 공정한 기여도 분배 (게임이론 기반)
Saliency Map: gradient 기반 민감도
Grad-CAM: CNN 특징 맵 + gradient 가중치 → 히트맵
Integrated Gradients: baseline → 입력까지 gradient 적분
Surrogate Model: 단순 모델로 블랙박스 근사
Counterfactual / Prototype: 사례 기반 설명

쌀과자AI

AI에 관심이 많은 23살 대학생입니다.

다음 포스트

설명가능한 AI (XAI, Explainable AI)

XAI

XAI의 필요성

대표적인 설명 기법

1. 모델 내재적 기법 (Intrinsic)

2. 사후적(Post-hoc) 기법

(1) 피처 중요도 기반

(2) 시각적 설명

(3) 대체 모델(Surrogate Model)

(4) 사례 기반 설명

정리 표

🔍 사후적(Post-hoc) 설명 기법 상세 설명

1. 피처 중요도 기반 기법

(1) Permutation Importance

(2) LIME (Local Interpretable Model-agnostic Explanations)

(3)

SHAP (SHapley Additive exPlanations)

2. 시각적 설명 기법 (주로 딥러닝 이미지 분야)

(1) Saliency Map

(2) Grad-CAM (Gradient-weighted Class Activation Mapping)

(3) Integrated Gradients (IG)

3. 대체 모델 (Surrogate Model)

4. 사례 기반 기법 (Case-based Explanations)

(1) Counterfactual Explanation

(2) Prototype & Criticism

📌 요약

SHAP (SHapley Additive exPlanations)

0개의 댓글