Main assumption: 아래 두 가지 덕분에 FC layer에 비해 연산량이 급격히 줄어든다.
Spatial locality
Each filter looks at nearby pixels only.
Positional invariance
Same filters are applied to all locations in the image.
→ 반면, X-ray 같은 경우, 폐의 위치가 정해져 있으므로 모든 곳을 볼 필요가 없다. 이렇게 domain knowledge를 활용하여 연산량을 줄이는 등 여러 효과를 기대할 수 있다.
Same padding
"첫 픽셀이 필터의 정중앙에 위치하게 하려면?"으로 접근하면 계산이 쉬워진다.
Tasks
Challenges
First Ideas in Action Recognition
Action Recognition Models Overview
Two-Stream Models
explicitly separate appearance (spatial) and motion (temporal)(Optical Flow) in trainig.
3D Convolution
📙 강의