๐ ๋ณธ ๋ฆฌ๋ทฐ๋ Grad-CAM ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ฉโ๐ป ์ค๋์ Grad-CAM ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์งํํด๋ณด๊ฒ ์ต๋๋ค. ์ ๋ชฉ๊ณผ ๊ฐ์ด Grad-CAM์ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ๋ฅผ ์ดํด๋ฅผ ๋์์ค๋๋ค. ํํ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ๋ฅผ "๋ธ๋๋ฐ์ค"๋ผ๊ณ ๋ถ๋ฅด๋๋ฐ, ์ด๋ ์ด๋ ํ ๊ณผ์ ์ ๊ฑฐ์ณ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋์ง ์ ํํ๊ฒ ์ดํดํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ณต์กํ ๊ณ์ฐ๊ณผ ๊น์ด์ง๋ layer๋ก ์ธํด ์ต๊ทผ์๋ ๋๋์ฑ์ด ์ค๋ช ํ๊ธฐ ์ด๋ ต์ต๋๋ค. Grad-CAM์ ์ด์ ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ์ ๋์์ ์ฃผ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ผ๊ณ ๋งํ ์ ์์ผ๋ฉฐ, ํ ๋ง๋๋ก CNN ๊ธฐ๋ฐ์ ๋คํธ์ํฌ๋ฅผ ๋ณด๋ค ํฌ๋ช ํ๊ณ ์๊ธฐ ์ฝ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
๐ ๊ทธ๋ฆผ (c), (i)์ Grad-CAM์ ์์๋ฅผ ํ์ธํ ์ ์์ต๋๋ค. Heatmap์ผ๋ก ๋๋ ธํ๊ฒ "Cat", "Dog"๋ฅผ ์ธ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. Grad-CAM์ ํน์ ๋คํธ์ํฌ layer์์ ์ด๋ค ๋ถ๋ถ์ ๊ฐ์กฐํ๋์ง ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค.
โ CNN์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ค์ํ vision task๋ค์ด ์กด์ฌํ๋๋ฐ, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ๊ณผ์ ์ ์ง๊ด์ ์ผ๋ก ์ดํดํ๋ ๊ฒ์๋ ์์ง๊น์ง ๋ง์ด ๋ถ์กฑํฉ๋๋ค. ์ฆ, ์ด๋ฌํ ๋คํธ์ํฌ๋ค์ด ์ ํํ๊ฒ ์ด๋ป๊ฒ ๋์ํ๋์ง ํด์ํ๊ธฐ ์ด๋ ต๋ค ๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค.
โ ํด์์ ๋ฌธ์ ์ ๋ํด ์กฐ๊ธ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ฉด, Grad-CAM๊ณผ ๊ฐ์ ์ค๋ช ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค๋ฉด, ์คํจํ ๋ฐฉ๋ฒ๋ค์ ๋ํ ๋ ผ๋ฆฌ์ ์ธ ์์ธ์ ์ฐพ์ ์ ์์ ๊ฒ๋๋ค. ๋ํ ์ง๊ด์ ์ธ ๊ทผ๊ฑฐ์ ์ ์ํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ ๋ขฐ๋๊ฐ ์ฆ๊ฐํ ๊ฒ์ ๋๋ค.
โ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ์ ํ๋์ ๋จ์ํจ ๋๋ ํด์ ๊ฐ๋ฅํจ์ trade-off ๊ด๊ณ๊ฐ ์กด์ฌํฉ๋๋ค. ์ฆ, ๋ชจ๋ธ์ ํด์ํ๊ธฐ ์ํด์ ๊ฐ๋จํ ๊ตฌ์กฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ผํ๋ฉฐ, ์ด๋ ๋ฎ์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค๋ ์๋ฏธ์ ๋๋ค. ์ ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๊น์ด์ง๊ณ , ๋ณต์กํด์ง๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Class Activation Mapping(CAM)์ด๋ผ๋ ๋ฐฉ๋ฒ๋ก ์ด ๋์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด class ์๋ณํ๋ฉฐ ๊ตฌ๋ถํ ์ ์์ต๋๋ค. ํ์ง๋ง ์ค์ง CNN ๋คํธ์ํฌ์์๋ง ์ฌ์ฉํ ์ ์๋ค๋ ๋จ์ ์ด ์กด์ฌํฉ๋๋ค. Grad-CAM์ ์์ CAM์ ์ผ๋ฐํ(generalization)์ ํ๋ค๊ณ ์๊ฐํ ์ ์์ต๋๋ค.
๐ What makes a good visual explanation??
โ good visual explanation์ ํ๊ธฐ ์ํด ์๋ ๋ ๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ์ ๋ํด ์ ๊ตฌ๋ถํด์ผํฉ๋๋ค.
(1). Class-discriminative
(2). High-Resolution
โ ์์ Grad-CAM์ ๊ฒฝ์ฐ์๋ Class-disciminative๋ ์ถฉ๋ถํ ๊ฐ๋ฅํ์ง๋ง, High Resoultioin ํ์ง ์์ต๋๋ค. ํ์ง๋ง Guided ๋ฐฉ๋ฒ๋ค์ ๊ฒฝ์ฐ์๋ High Resoultioin ํ์ง๋ง, Class-disciminative ํ๋๋ฐ ์ ์๋ณ๋์ง ์์ต๋๋ค. ์์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํผ์ฉํ ๋ฐฉ๋ฒ์ธ Guided Grad-CAM์ ํ์ธํ๋ฉด Class-disciminative, High Resoultioin ์ ๋ถ ์ ํ์ธํ ์ ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
โ ์ผ๋ฐ์ ์ผ๋ก CNN ๋คํธ์ํฌ ์ค ๋ง์ง๋ง Conv layer ์์ ๊ฐ์ฅ ๋ง์ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. Fc layers์์๋ ๊ณต๊ฐ ์ ๋ณด๊ฐ ์์ค๋จ์ผ๋ก ๊ทธ ์ง์ ์ layer์์ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฏ๋ฅด Grad-CAM์์๋ Conv layer์ ๋ง์ง๋ง layer๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๐ ๊ฐ๋จํ๊ฒ ์ ์ฒด์ ์ธ ๋คํธ์ํฌ ํ๋ฆ์ ๋ํด ์ดํด๋ณด๋ฉด, Softmax ์ด์ ์ class c์ ๊ฒฐ๊ณผ๋ก๋ถํฐ ๋ง์ง๋ง Conv layer๊น์ง์ Gradient๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์์ ๊ทธ๋ฆผ์์๋ ํ์ธํ ์ ์๋ฏ์ด ์ด๋ค task๋ ๊ด๊ณ์์ด ๋์ผํ๊ฒ ์ํ๋ฉ๋๋ค. Backprop๋ gradient์ ๋ํด GAP๋ฅผ ์ํํฉ๋๋ค. ์ํ๋ GAP๋ฅผ Weight๋ก ์ฌ์ฉํด feature map๊ณผ ์ฐ์ฐ์ ์ํํ๊ณ ReLU function์ ํต๊ณผํด ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
โ Fig 2.์ Grad-CAM์ ๊ฒฐ๊ณผ๋ Class ์ ๋ํ width x height ํฌ๊ธฐ์ ๊ฒฐ๊ณผ๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค.
โ ๊ณ์ฐ ์์๋ก๋ ๋จผ์ score for class , ์ gradient๋ฅผ ๊ณ์ฐํฉ๋๋ค(softmax์ด์ ๊น์ง). ์ด gradient๋ฅผ GAP๋ก ๊ณ์ฐํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
๐ Weight ๋ A๋ก๋ถํฐ downstream๋ partial linearization(๋ถ๋ถ ์ ํํ)์ด๋ฉฐ, ์ด๋ feature map ์ target class ์ ์ค์๋๋ฅผ ํฌ์ฐฉํ๋ค๊ณ ๋งํ ์ ์์ต๋๋ค. ์ดํ์ ReLU function์ ํต๊ณผํด ๊ฒฐ๊ณผ๋ฅผ ์ป๋๋ฐ, ReLU Function์ ์ฌ์ฉํ๋ ์ด์ ๋ positiveํ ๊ฒ๋ค๋ง์ ์ฐพ๊ณ ์๋ ๊ฒ์ด ๋๋ฌธ์ ๋๋ค.
โ Grad-CAM์ ์ผ๋ฐํํ CAM์ด๋ผ๊ณ ๋ ๋งํ ์ ์์ต๋๋ค. ์ด๋ ์์์ ์ผ๋ก ์ฆ๋ช ์ด ๊ฐ๋ฅํฉ๋๋ค.
๐ ์ด๋ Grad-CAM ๋ฆฌ๋ทฐํด์ฃผ์ ์๋ฃ๋ฅผ ์ฒจ๋ถํ์ต๋๋ค. ์๋ Reference์์ ํ์ธํ์ค ์ ์์ต๋๋ค. ์์ ๊ณผ์ ์ด ๋
ผ๋ฌธ์ ์ ์๋ ๊ธ๋ณด๋ค ๋์ฑ ์ดํด๊ฐ ์ฝ๊ธฐ ๋๋ฌธ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โ ๋จผ์ ์ฒซ๋ฒ์งธ ์์ ๋ณด๋ฉด, ๋ฅผ Softmax ์ด์ ์ ๊ฐ์ ๋งํฉ๋๋ค. ๋ pixel์ ์ ์ด๋ฉฐ, ๋ ๊ฐ ํฝ์ ์ ์์น์ ์๋ฏธํ๋ฉฐ, ๋ ๋ฒ์งธ feature map์ ๋ฒ์งธ ์์น์ ๋๋ค.
โ ์์ ๊ฐ์ ์ ์ํ๊ณ , ์์ ์์ ๋ฐ๋ผ๊ฐ๋ค๋ณด๋ฉด ๊ฒฐ๋ก ์ ์ผ๋ก ๊ธฐ์กด์ CAM์ ์ผ๋ฐํํ ๋ชจ์ต์ด๋ ๊ฒ์ ํ์ธํ์ค ์ ์์ต๋๋ค.
โ CAM๊ณผ Grad-CAM์ ์ฐจ์ด์ ๋ํด ๊ฐ๋จํ๊ฒ ์ธ๊ธํ๋ฉด, CAM์ ๊ฒฝ์ฐ์๋ CAM์ ํ๊ธฐ ์ํด์ ์ถ๊ฐ์ ์ธ GAP layer๊ฐ ํ์ํ๋ค๋ฉด, Grad-CAM์ ๊ฒฝ์ฐ์๋ ์ด๋ ํ ๋ณ๋์์ด Gradient๋ก ํ์ตํ ์ ์์ต๋๋ค.
โ Grad-CAM์ class-discriminative์ด๋ฉฐ ๊ด๋ จ ์ด๋ฏธ์ง ์์ญ์ localizes ํ์ง๋ง Guided backpropagation๊ณผ ๊ฐ์ fine-grainedํ ๋ํ ์ผ์ ๊ฐ์กฐํ ์ ์์ต๋๋ค.
โ Guided Grad-CAM์ Grad-CAM์ Guidedํ ๋ฐฉ๋ฒ์ element-wiseํ ๋ฐฉ๋ฒ์ ๋๋ค. Guided backpropagation์ ์ญ์ ํ ๊ณผ์ ์์ negativeํ gradient์ ์ต์ ํ๋ ๋ฐฉ๋ฒ์ ๋งํฉ๋๋ค. ์ด๋ ๋ง์น ReLU function์ gradient์ ์ ์ฉํ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค.
๐ Grad-CAM์ ๋ฐฉ๋ฒ๋ก ์ ์์ ๊ฐ์ ์ด๋ ต์ง ์๋ ๋ฐฉ๋ฒ์์ ์ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ค์ํ ์คํ ๊ฒฐ๊ณผ์ ๋ํด์๋ ์์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๊ถ๊ธํ์ง๋ฉด ์ฐพ์๋ณด๋ ๊ฒ์ ์ถ์ฒ๋๋ฆฌ๊ฒ ์ต๋๋ค. Grad-CAM์ ๋ฅ๋ฌ๋์ด ์ด๋ป๊ฒ ํ์ตํ๋ ๊ฒ์ธ์ง์ ๋ํ ๋ ผ๋ฆฌ์ ์ธ ๋ถ๋ถ์ ์ค๋ช ํ๋ ๊ฒ์ ๋์์ ์ค ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ํ Grad-CAM์ ์ด์ ์ CAM๊ณผ ๋ค๋ฅด๊ฒ layer ์์ ์ด ๋ถํ์ํ๋ค๋ ์ ์ด ๋งค์ฐ ์ฅ์ ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. Vision๊ณผ ๊ด๋ จ๋ Network๋ผ๋ฉด Grad-CAM์ ์ ์ฉํด ํ์ํ ๊ทผ๊ฑฐ์๋ฃ๋ฅผ ์ฐพ์ ์ ์์ ๊ฒ์ ๋๋ค.