CNN은 input image의 공간정보를 유지한 채 학습을 합니다. 그리고 image 전체의 정보를 압축하기 위해 여러 개의 layer를 통과시킵니다. 그리고 transformer는 하나의 layer로 전체 Image 정보 압축합니다.⇒ 멀리 떨어져있는 정보를 통합하