ImageNet Large Scale Visual Recognition Challenge Winners
Small Filters, Deeper Networks
- 3x3 conv 세 개가 7x7 conv 하나와 비슷한 효과 (=effective receptive field)
- 또한 더 적은 파라미터로 구현 가능함
- C가 레이어 당 채널 수일 때, 3 (3^2C^2) vs 7^2*C^2
- 하지만 더 많은 레이어를 쌓았을 때 non-linearities를 높일 수 있음