설명가능한 AI (XAI, Explainable AI)

쌀과자AI·2025년 9월 3일

XAI

목록 보기
1/5

*설명가능한 AI(XAI)는 인공지능 모델이 내리는 의사결정 과정을 사람이 이해할 수 있도록 해석하는 연구 분야입니다. 특히 딥러닝과 같은 복잡한 블랙박스 모델**의 결과를 설명해줌으로써, 신뢰성·투명성·책임성을 확보하는 것이 목표입니다.

예를 들어, 의료 진단에서 AI가 “폐렴 가능성이 높다”라고 판단했을 때, 어떤 특징(엑스레이 이미지의 특정 부분 등)이 결정에 기여했는지를 의사에게 알려줄 수 있어야 합니다.


XAI의 필요성

  • 신뢰성 확보: 사용자가 AI의 판단 근거를 알 수 있어야 결과를 신뢰 가능
  • 법적·윤리적 요구: 금융·의료 등 고위험 영역에서 설명 책임(책무성) 요구
  • 모델 개선: 모델의 오류 원인을 분석해 성능 향상 가능
  • 사용자 수용성: 전문가 및 일반 사용자가 결과를 받아들이기 쉽게 함

대표적인 설명 기법

XAI 기법은 크게 모델 내재적(Intrinsic) 기법과 사후적(Post-hoc) 기법으로 나눌 수 있습니다.


1. 모델 내재적 기법 (Intrinsic)

모델 자체가 해석 가능하도록 설계하는 방법입니다.

  • 선형 회귀, 로지스틱 회귀: 가중치(회귀계수)가 곧 특징 중요도
  • 의사결정트리 (Decision Tree): 트리 구조가 “조건 → 결과” 흐름을 직관적으로 보여줌
  • 규칙 기반 모델 (Rule-based Model): IF–THEN 규칙으로 설명 가능
  • Generalized Additive Models (GAMs): 각 특징의 영향이 더해지는 구조라 해석 용이

→ 장점: 해석 용이

→ 단점: 복잡한 문제(이미지, 텍스트 등)에는 성능이 부족할 수 있음


2. 사후적(Post-hoc) 기법

복잡한 블랙박스 모델(딥러닝 등)의 결과를 나중에 해석하는 방법입니다.

(1) 피처 중요도 기반

  • Permutation Importance: 특정 특징을 섞어 모델 성능 저하를 관찰 → 중요도 측정
  • SHAP (SHapley Additive exPlanations): 게임이론적 접근, 각 특징이 기여한 정도를 공정하게 분배
  • LIME (Local Interpretable Model-agnostic Explanations): 입력 근처에서 단순한 선형모델을 학습하여 국소적 설명 제공

(2) 시각적 설명

  • Saliency Map: 이미지 분류에서, 출력에 민감한 픽셀 위치를 시각적으로 강조
  • Grad-CAM (Gradient-weighted Class Activation Mapping): CNN의 특정 클래스에 기여한 이미지 영역을 하이라이트
  • Integrated Gradients: 입력의 각 특징이 예측에 기여한 정도를 경로적분으로 계산

(3) 대체 모델(Surrogate Model)

  • 복잡한 모델을 흉내 내는 단순 모델(예: 결정트리)을 학습 → 원래 모델의 동작을 간접적으로 설명

(4) 사례 기반 설명

  • Counterfactual Explanation: “만약 이 특징이 달랐다면 결과가 어떻게 변했을까?” (예: 대출 거절 → 소득을 X만큼 높이면 승인)
  • Prototype & Criticism: 대표 사례(prototype)와 반례(criticism)를 제시하여 모델의 의사결정 근거 설명

정리 표

구분대표 기법설명 방식장점단점
내재적선형모델, 결정트리, GAM모델 구조 자체가 해석 가능직관적, 간단복잡한 문제에 약함
사후적 - 피처 중요도LIME, SHAP, Permutation각 특징의 기여도 산출범용성, 수학적 근거계산 비용 큼 (특히 SHAP)
사후적 - 시각화Saliency Map, Grad-CAM, IG입력(이미지, 텍스트)의 기여 부분 시각화직관적 이해 용이잡음 포함 가능
사후적 - 대체 모델Surrogate Tree블랙박스를 단순 모델로 근사직관적 설명근사 품질이 낮으면 오류 가능
사후적 - 사례 기반Counterfactual, Prototype실제/가상 사례로 설명사용자가 쉽게 이해생성의 어려움

🔍 사후적(Post-hoc) 설명 기법 상세 설명

1. 피처 중요도 기반 기법

(1) Permutation Importance

  • 원리: 특정 특징(feature)의 값을 무작위로 섞어 모델 입력에 넣어봅니다. → 해당 특징이 모델 예측에 실제로 기여했다면, 성능(Accuracy, AUC 등)이 눈에 띄게 떨어짐.
  • 수식적 아이디어:
    Importance(f)=MMπ(f)\text{Importance}(f) = M - M^{\pi(f)}
    • MM: 원래 모델의 성능
    • Mπ(f)M^{\pi(f)}: 특징 f를 무작위로 섞었을 때의 성능
  • 장점: 모델 구조에 상관없이 사용 가능, 직관적
  • 단점: 계산 비용이 크고, 특징 간 상관관계가 높은 경우 중요도 왜곡 발생

(2) LIME (Local Interpretable Model-agnostic Explanations)

  • 원리:
    1. 설명하고 싶은 특정 샘플 x 주변에 무작위로 데이터 포인트를 생성 (perturbation)
    2. 원래 모델의 예측값을 이 데이터에 대해 얻음
    3. 그 결과를 바탕으로 단순한 해석 가능한 모델(선형 회귀, 결정트리 등)을 학습
    4. 이 단순 모델의 가중치를 근사적 설명으로 사용
  • 수식 아이디어:
    ξ(x)=argmingG  L(f,g,πx)+Ω(g)\xi(x) = \arg\min_{g \in G} \; L(f, g, \pi_x) + \Omega(g)
    • ff: 원래 블랙박스 모델
    • gg: 단순 근사 모델(설명용)
    • πx\pi_x: xx 근처에서의 가중치 분포
    • Ω(g)\Omega(g): 모델 복잡도 패널티
  • 장점: 국소적(local) 설명이 가능, 모델 불문
  • 단점: 데이터 생성 방식에 따라 결과가 불안정할 수 있음, 샘플마다 설명이 달라질 수 있음

(3)

SHAP (SHapley Additive exPlanations)

  • 원리: 게임이론의 셰플리 값(Shapley value) 개념을 차용. 각 특징이 모델 예측에 기여한 정도를 “공정하게 분배”하는 방식.
  • 수식:
    ϕi(f,x)=SF{i}S!(FS1)!F!(f(S{i})f(S))\phi_i(f, x) = \sum_{S \subseteq F \setminus \{i\}} \frac{|S|! \, (|F| - |S| - 1)!}{|F|!} \Big( f(S \cup \{i\}) - f(S) \Big)
    • FF: 전체 특징 집합
    • SS: 특정 특징 부분집합
    • f(S)f(S): S만 사용했을 때 모델 출력
    • ϕi\phi_i: 특징 i의 공헌도
  • 장점: 이론적으로 유일한 공정한 기여도 분배 방법 (게임이론적 보장)
  • 단점: 특징 수가 많으면 계산량이 지수적 폭발 (근사 알고리즘 사용 필요, e.g. KernelSHAP, TreeSHAP)

2. 시각적 설명 기법 (주로 딥러닝 이미지 분야)

(1) Saliency Map

  • 원리: 모델 출력에 대해 입력 이미지의 gradient(∂output/∂pixel)를 계산 → 큰 기울기를 가진 픽셀은 출력에 민감하다는 뜻
  • 장점: 간단하고 직관적
  • 단점: 잡음이 많고 해석이 모호할 수 있음

(2) Grad-CAM (Gradient-weighted Class Activation Mapping)

  • 원리: CNN의 마지막 Convolution Layer의 feature map에 gradient 가중치를 곱해 해당 클래스에 중요한 영역을 강조
  • 수식 아이디어:
    LGradCAMc=ReLU(kαkcAk)L^c_{Grad-CAM} = \text{ReLU}\Big(\sum_k \alpha_k^c A^k \Big)
    • AkA^k: k번째 feature map
    • αkc=1ZijycAijk\alpha_k^c = \frac{1}{Z} \sum_i \sum_j \frac{\partial y^c}{\partial A^k_{ij}}: 클래스 c에 대한 중요도
  • 장점: 사람이 보기 좋은 “히트맵” 형태 제공
  • 단점: 해상도가 낮음, conv layer 위치 선택에 따라 결과 차이

(3) Integrated Gradients (IG)

  • 원리: 입력 x와 “기준점(baseline)” x’을 설정. baseline에서 x로 이동하는 경로에서의 gradient를 적분하여 각 특징의 기여도를 계산.
  • 수식:
    IGi(x)=(xixi)×α=01F(x+α(xx))xidαIG_i(x) = (x_i - x’i) \times \int{\alpha=0}^1 \frac{\partial F(x’ + \alpha (x - x’))}{\partial x_i} d\alpha
  • 장점: 이론적 성질 (완전성, 선형성 등) 보장
  • 단점: baseline 선택이 중요, 적분 근사를 위해 계산량이 많음

3. 대체 모델 (Surrogate Model)

  • 원리: 복잡한 블랙박스 모델을 “가짜 모델(흉내 모델)“로 단순화하여 설명 예: Random Forest → 근사적인 결정트리 학습
  • 장점: 전역적(Global) 설명 가능
  • 단점: 근사 품질이 낮으면 잘못된 설명 위험

4. 사례 기반 기법 (Case-based Explanations)

(1) Counterfactual Explanation

  • 원리: “만약 입력 특징이 이렇게 달랐다면 결과가 어떻게 변할까?”
  • 예시:
    • 원래: “대출 거절”
    • Counterfactual: “소득이 300만 원 더 많았다면 대출 승인”
  • 장점: 사람에게 직관적, actionable insight 제공
  • 단점: 현실적이지 않은 counterfactual 생성 가능

(2) Prototype & Criticism

  • 원리:
    • Prototype: 모델이 어떤 클래스의 대표 사례라고 생각하는 입력
    • Criticism: Prototype만으로 설명되지 않는 예외적 사례
  • 장점: 사용자에게 이해하기 쉬운 예시 기반 설명 제공
  • 단점: 대표 사례 선정 방법에 따라 편향 발생

📌 요약

  • Permutation Importance: 특징 중요도 (무작위 섞기)
  • LIME: 국소적 선형 근사
  • SHAP: 공정한 기여도 분배 (게임이론 기반)
  • Saliency Map: gradient 기반 민감도
  • Grad-CAM: CNN 특징 맵 + gradient 가중치 → 히트맵
  • Integrated Gradients: baseline → 입력까지 gradient 적분
  • Surrogate Model: 단순 모델로 블랙박스 근사
  • Counterfactual / Prototype: 사례 기반 설명

profile
AI에 관심이 많은 23살 대학생입니다.

0개의 댓글