Translation Invariant

iissaacc·2022년 1월 3일

Computer vision

목록 보기

10/11

Prologue

Detector 관련 연구를 공부하다 보면 가끔 만날 수 있다. 내가 알고 있는 단어들을 합쳐도 "변화가 없다" 정도로 파악할 수 있을 뿐 정확하게는 어떤 변화를 말하는 건지 모르겠다. 앞뒤로 문맥을 좀 파악해보려고 해도 오리무중이다. 그냥 Detector가 가져야 할 중요한 특성인 것 같다.

By dictionary

일단 사전에서 말하는 기술용어들을 살펴보고 유추해보자. 시간은 걸리겠지만 기억에는 더 오래 남을 거다.

translation: noun. FORMAL $\cdot$ TECHNICAL
the process or moving something from one place to another.

invariant: noun. MATHEMATICS
a function, quantity, or property which remains unchanged when a specified transformation is applied.

사전만 보고 유추해보자면 image에서 object의 위치가 변하더라도 object가 뭔지 예측할 수 있다는 말인 것 같다.

By image search

Hell yeah

How is it possible?

전에 지적했듯이 CNN은 2가지 특징이 있다. $U\in\mathbb{R}^{H'\times W'\times C'}$ 인 feature map 집합에서 $i$ 번째 feature map $u_i$ 를 계산하는 과정은 아래와 같다.

u_i=v_i\circledast X,\quad\text{where } X\in\mathbb{R}^{H\times{W}\times{C}}

식에서 볼 수 있듯이 의 $i$ 번째 feature map의 pixel들은 $i$ 번째 kernel $v_i$ 를 공유하고 있다.
kernel이 뭐하는지 까보면 network bottom에 가까운 kernel일 수록 점, 선같은 단순한 정보를 보고 network top에 가까운 kernel일 수록 이전의 단순한 정보를 모아서 좀더 고수준의 object를 본다.