XAI방법들을 비교하고 평가하는 법에는 정량적인 척도로 이를 구분하는 것과 Sanity Checks라고 하는 합리성 평가를 통해 이 방법들을 구별하는 방법이 있다. 먼저 사람들이 직접 XAI방법들이 만들어낸 설명을 보고 비교평가를 진행하는 방식을 설명한다.
Human-based Visual Assessment
AMT (Amazon Mechanical Turk) test
사람들에게 직접 퀴즈를 내는 방식으로, 각 모델의 예측에 대한 설명을 보여주고 사람들이 과연 어떤 예측에 대한 설명인지 맞춰보도록 하거나 모델이 주어진 이미지에 대해 예측을 하였는데 그 예측에 대한 서로 다른 설명을 보여주어 어느쪽 설명이 더 좋은 지 고르도록 하는 것
- 단점 : 매우 값이 비싸고 평가하는데 시간이 오래 걸림
Human Annotation
object detection이나 semantic segmentation모델을 학습하기 위한 학습으로, data set에서는 주어진 이미지에 대한 객체의 바운딩 박스나 semetic segmentation map이 이미 제공되므로 이러한 점을 활용해서 설명가능기법들을 평가할 수 있다.
Pointing Game
- bounding box를 활용해서 평가하는 방법
- 이미지의 바운딩 박스가 있을 때 XAI방법이 가장 중요하다고 보여주는 픽셀이 사람이 만든 바운딩 박스안에 있다면 좋은 설명이라고 할 수 있다. 즉, 각 이미지마다 가장 설명값이 높은 픽셀이 바운딩 박스안에 들어가는 정확도를 계산해서 평가함
Weakly Supervised Semantic Segmentation
- 어떤 이미지에 대해서 classification label만 주어졌을 때 그것을 활용하여 픽셀별로 객체의 label을 예측하는 semantic segmentation을 수행하는 방법으로, 픽셀별로 정답 레이블이 다 주어지지 않기에 weakly supervised이다.
- IoU(intersection over union)을 활용해서 정답 map과 이렇게 만들어낸 segmentation map이 얼마나 겹치는지를 평가한다. 다만 단점으로는 human annotation을 얻기 쉽지 않고 비싸다, 바운딩 박스나 segmentation label이 진짜 좋은 설명을 얘기하는 정답이냐에 대해서도 명확하지 않음
Pixel perturbation
픽셀들을 교란함으로써 그 모델의 출력값이 어떻게 변하는지 직접 테스트해보는 방식. 만약 우리가 어떠한 이미지에 대해 중요부분을 삭제할 시 해당 클래스에 대한 로짓값이 줄어들 것이다.
AOPC (Area Over the MoRF Perturbation Curve)
주어진 이미지에 대해서 각각의 XAI기법이 설명을 제공하면 그 제공한 설명의 중요도 순서대로 각 픽셀들을 정렬할 수 있을 것이고 그 순서대로 픽셀을 교란하였을 때 과연 원래 예측한분류 스코어 값이 얼마나 빨리 바뀌는지를 측정하는 것
- 교란은 중요하다고 이야기한 픽셀을 랜덤한 픽셀 값으로 바꾸는 것이고 AOPC가 높을수록 중요한 픽셀들을 더 정확하게 찾아내고 있다는 것이다.
Insertion and Deletion
- deletion: 설명 방법이 제공한 중요한 순서대로 픽셀 하나씩 지워나가며 확률값이 떨어지는 지 보는 것, 커브의 아래면적을 구하므로 deletion이 낮을수록 좋다.
- insertion: 백지상태 이미지에서 중요한 순서대로 추가시키며 출력스코어 값이 올라가는 그래프의 아래면적을 구함, 면적이 크면 클수록 좋다
Pros and Cons of Insertion-Deletion
- 장점 : 사람의 직접적인 평가나 annotation을 활용하지 않으면서도 객관적인, 정량적인 평가지표를 얻을 수 있다
- 단점 : 데이터를 지우거나 추가하는 과정에서 머신러닝의 주요과정을 위반하는 경우가 있다.
ROAR (RemOve And Retrain)
XAI기법이 생성한 중요한 픽셀들을 지우고 나서 다시 지운 데이터를 활용해 모델을 재학습한 뒤 정확도가 얼마나 떨어지는 지 평가하는 방법
- 장점 : 조금 더 객관적이고 정확한 평가를 할 수 있다.
- 단점 : 모델의 매번 재학습해야하므로 계산 복잡도가 매우 높아짐
Sanity checks
Model randomization
Model randomization test
해당 실험은 파라미터들을 재초기화시키는 과정을 하강 방식이나 독립계층 방식 등 무작위로 진행하여 나타내었고 어떤 해석은 이 무작위 실험에 대해 불감한 모습을 보이기도 했다.
i.e., Guided-backprop, LRP, and Pattern attribution
Adversarial attack
입력 이미지의 픽셀을 아주 약간만 바꿨을 때 분류기의 출력 예측은 변함없지만 그에 대한 설명이 완전히 어그러지게 만드는 것이 가능하다.
-> XAI기법이 생성해낸 설명, 이미지의 하이라이트 부분을 잘 믿을 수 없게 된다.
많은 설명방법들이 gradient와 연관되어 있는 값들을 사용하는 데 decision boundary가 불연속적으로 나오게 된다면 gradient의 방향이 급격하게 변할 수 있어 조금만 입력이 바뀌어도 gradient가 아주 많이 바뀔 수가 있는 것이다.
Adversarial model manipulation
모델이 편향되어있다는 것을 알았을 때 모델을 편향되지 않도록 고쳐서 재학습시키는 것이 아니라 계수들을 조금씩 조작해서 모델의 정확도는 차이가 없지만 설명가능 방법으로 만들어 낸 설명만 마치 공정한 모델인 것처럼 나오게 만들 수 있다.