layer를 깊게 쌓으면 error가 적어져 성능이 좋아질 거라 생각하지만 오히려 20층 부터 degradation 문제가 보이는데, Vanishing Gradient Problem(기울기 소실 문제)로 인해서 발생 한다고 한다.그래서 사용한 것이 residual l