※ 본 글은 Image Captioning task 내에서 XAI적 접근법을 적용한 한 논문을 다룹니다.
Paper: EXplainable AI (XAI) approach to image
captioning(27 July 2020)
해당 연구는 image captioning으로의 XAI apporach를 다룹니다. Image captioning task를 예로 들면, 딥러닝의 'black-box' 성질 때문에 특정 이미지에 대한 캡션을 생성할 때 '왜 이 단어를 썼는지' 이해할 수 없으며, 그렇기에 때로 어이없는 결과를 내놓곤 한다.
이런 문제를 해결하기 위해 본 연구는 explainable image captioning model을 제안하며, 이를 통해 주어진 이미지 내 object(or a concept)의 region과 특정 word(or phrase) 간의 시각적 연결을 제공할 수 있게 된다.
이미지 캡셔닝은 컴퓨터 비전(CV)와 자연어 처리(NLP) 분야의 하위 분야라고 할 수 있으며, 주어진 이미지에 대한 묘사를 생성하는 태스크이다. 딥러닝 기반의 이미지 캡셔닝 모델은 주로 CNN과 RNN을 사용한 encoder-decoder framework를 사용한다.
하지만, 딥러닝의 'black-box' 성질때문에 이미지에 대한 캡션을 생성할 때 왜 특정 단어가 쓰이는 지에 대한 이해는 부족한 실정이다. 이런 문제를 해결하기 위해 연구 "Explainable Image Caption Generator Using Attention and Bayesian Inference"(동일저자)에서는 image 내 object와 특정 word(or phrase)의 link를 제공하는 explainable image captioning model을 제안했다.
해당 모델은 아래 그림과 같은 구조로 이루어져있다.
이 모델의 학습이 완료됐다고 가정하면(방법은 Section 3에 기술), caption 생성 과정은 아래와 같이 이루어진다.
위에서 가중치 값은 word-region pair에서 word와 object가 얼마나 'matching'되는 지 연관성 정도를 나타낸다. 이 matched pair는 왜 캡션이 선택된 words를 이용해 생성됐는지 합리성을 제공한다.
본 논문에서는 위에서 소개한 연구의 확장 버전을 소개하며, 이는 image captioning에 대한 XAI apporach를 다룬다. 연구를 간단히 요약하면 아래와 같다.
Section 2에서는 관련 연구를, Section 3에서는 제안한 모델의 세부사항을, Section 4에서는 실험 결과를, 마지막으로 Section 5에서는 결론을 다룬다.