
0으로 수렴되지 않음 → 절대 닫힐 일이 없음 → 항상 모든 정보가 통과 → 지속적인 residual training이 가능함
실제로는 identity mapping이 최적일 가능성이 매우 낮지만, residual network를 사용한 pre-conditioning으로 인해 optimal function이 zero mapping보다 identity mapping에 가깝다면, solver이 identity mapping을 참조하여 작은 변화를 학습하는 것이 새로운 미지의 function을 학습하는 것보다는 쉬운 일이라고 주장하고 있다.
shortcut connection은 파라미터나 연산 복잡성을 추가하지 않는다. F + x 연산 시에 서로의 차원이 맞지 않으면 linear projection인 Ws을 곱해주어서 차원을 맞춰줄 수 있다.
Plain Network는 VGGnet을 baseline으로 이용하여서 설계되었다고 한다.
conv filter의 size가 3x3이고 다음 2 가지 규칙을 따른다 :
추가적으로, downsampling 수행 시에 pooling하지 않고 stride가 2인 conv filter를 사용하고, 모델 끝단에 GAP을 사용하고, size가 1000인 FC layer와 Softmax를 사용한다. (stride는 보통 shortcut의 뛰어넘는 size와 동일하게 설정)
ResNet은 Plain model을 기반으로 shortcut connection을 추가하여 구성된다. 차원이 같을 떄는 identity shortcut을 바로 적용하면 되지만, 차원이 증가했을 경우에는 2가지 선택권이 있다 :