학습에 필요한 파라미터가 늘어나면 늘어날 수록 Generalization이 어렵다.
픽셀 하나만 본다 -> 대신 채널 수를 줄일 수 있다. -> 고로 파라미터를 줄인다. -> 더 깊게 쌓으면서 파라미터 수는 줄인다.