CAM은 WSSS에서 seed가 되는 부분으로, object의 local salient part를 찾아낸 후, propagate하며, entire object area를 찾아낸다.
Architecture는 typical classification network에 GAP가 붙은 형태로 구성되어 있다.
GAP(Global Average Pooling)
각 feature map안에 있는 평균 값들을 output으로 출력하는 방식이다.
: classification weights
: feature vector located (x, y) on the feature map before GAP
최종적인 AffinityNet의 loss는 다음과 같다.
하지만 이렇게 구해진 loss는 class를 구분하지는 않는다.
⇒ general representation을 학습하도록 한다.
AffinityNet에 의해 예측된 local semantic affinity는 transition probability matrix로 바뀐다.
이러한 transition matrix로 찾아낸 random walk는 CAM의 퀄리티를 향상시킨다.
Transition matrix 는 다음과 같은 식으로 도출된다.
위 transition matrix로 semantic propagation을 수행한다.