사실 11X11 필터 쓰면 파라미터가 너무 많이 필요해서 좋은 선택은 아니다.
ReLU activation(activation이 가져야할 첫번째 덕목은 nonlinear)
2 GPU
= 하나의 output 값이 만들어지는데 영향을 끼치는 입력들의 개수
Receptive field는 같지만 파라미터의 개수는 여러 층 쌓은게 더 적다.
network in network(NIN구조)
입력값 하나가 여러 path로 갈라졌다가 하나로 합쳐진다.
->전체적인 net의 parameter를 줄여준다.
파라미터의 수는 30퍼센트 줄이되 입력->출력은 동일하다.
= trainingerror 낮아지지만 testerror는 높아진다. Epoch이 진행될수록
따라서 ResNet은 이를 해결하기 위해 identity map을 사용하여 residual connection 사용
3X3 전에 input을 줄이기 위해 한번 후에 늘리기 위해 한번
Concat은 대신에 채널이 기하급수 적으로 늘어난다. -> params도 계속 늘어나
따라서
DenseBlock에서 concat으로 늘리다가 TransitionBlock에서 줄이고 다시 Dense….