Class Activation Mapping

iissaacc·2022년 4월 3일

CAM Class Activation Mapping XAI

paper reading

목록 보기

18/20

Prologue

수능문제를 풀 때 과목을 넘나들면서 묻는 문제유형이 있다.

글쓴이(화자)의 의도로 올바른 것은?

다른 사람의 의도를 알고 싶어하는 건 인간의 본능인 것 같다. 요즘은 사람속 뿐만 아니라 흔히들 블랙박스라고 부르는 머신러닝 model의 속도 알고 싶어한다.

model을 만들어서 학습을 하기는 하는데 어떤 근거로 개를 개로, 고양이는 고양이로 판단하는지 알 길이 없기 때문이다.

What did the authors try to acomplish?

AlexNet이나 VGGNet은 마지막 feature map을 flatten하고 Fully Connected Layer(FCL)를 붙여서 쓰는 방식으로 classification을 수행했다. 앞선 연구에서 CNN만으로도 spatial feature를 읽어낼 수 있지만 flatten layer로 인해 그 능력을 잃어버린다고 밝혔다고 하면서 model이 classification을 하긴 하는데 어떻게 할 수 있는지 알 수 없게 하는 주요한 원인이라고 지적했다.

What were the key elements of the approach?

Global Average Pooling

요즘에는 network head로 flatten layer대신 Global Average Pooling(GAP)을 쓰는 이유는 이렇다.

연산량을 줄일 수 있다.
Conv layer가 spatial dimention으로 쌓은 feature를 classification에도 활용할 수 있다.

Network in Netwokr(NIN)에서는 두 가지 문제를 해결하려고 GAP를 제안했고 이후 network head에 반드시 써야 하는 layer로 자리잡았다.

GAP를 통해 마지막 feature map을 한 장씩 포떠서 평균내기 때문에 이 또한 feature map이 가진 대부분의 정보를 잃어버리는 게 아닌가 싶지만 channel방향으로 있는 spatial feature를 어떻게든 살릴 수 있다. 연구에서는 이 점을 주목했다.