Zhou et al이 CAM(Class Activation Mapping) 을 제안함.
CAM은 Fully-connected layer을 전혀 포함하지 않는 제한된 형태의 Image Classification CNN에서 사용되는 Discriminative한 영역을 식별함
Complexity와 Performance는 trade-off(반비례..?) 관계에 있음
→ Grad-CAM은 일반화된 CAM → 훨씬 더 많은 CNN Model에 적용될 수 있음
Good Visual Explanation의 조건
- (b), (h) → 아주 비슷한 결과를 보임 (Not Class-discriminative)
- (c), (i) → (c)는 cat에 하이라이트, (i)는 dog에 하이라이트 (highly Class-discriminative)
- (d), (j) →앞의 두 모델을 합쳐 Highly Class-discriminative & High-resolution한 이미지를 얻어냄.
→ 요약
Class-discriminative와 High-resolution 두 마리 토끼를 모두 잡는 Grad-CAM을 제안
Localization과 Faithfulness로 평가할거임
존재하는 Top-performing classification, captioning, VQA에 Grad-CAM을 적용
Image Classification에 적용된 ResNets를 시각화해볼거임
Human-studies 진행할거임
Grad-CAM과 가장 밀접한 연관을 맺고 있는 모델 → CAM(Class Activation Mapping)
CNN의 Fully-connected layers를 Convolution layers와 GAP(Global Average Pooling)으로 대체
→ Class-specific feature map을 얻을 수 있음
단점
Softmax layers에 바로 연결되는 feature map을 필요로 하기에 특정 구조를 가진 CNN에만 적용이 가능 → 특정 구조 : Conv feature map → Global Average Pooling → Softmax Layer
→ Image Classification과 같은 일반적인 task에서 좋지 않은 성능을 보임
→ Image Captioning이나 VQA와 같은 task에는 적용할 수 조차 없음
score for class C, Feature maps for convolution layer → Gradients via backprop, Global Average Pooling
Partial Linearization of the deep network downstream from A
→ Neuron importance weight
→ Target class c를 위한 Feature map "k"의 중요도
ReLU를 쓴 이유 : Class에 긍정적인 영향을 미치는 Feature에만 관심이 있기 때문에
CAM과 Grad-CAM의 간단한 차이