각각의 데이터 샘플들이 구성하고 있는 features는 독립적이미지 안의 의미있는 정보는 위치에 무관convolution 연산은 위치에 무관한 지역적인 정보를 추출하기 좋은 연산 문장을 구성하고 있는 단어들의 위치가 변해서는 안됨단어들 간의 관계가 중요하고 하나의 단어
입력 방법이 병렬처리가 되어 있다 => 성능을 높일 수 있다.skip connectionlayer nomalization기계번역 task에서 기존의 연구들보다 성능적으로 우수병렬적으로 처리가 가능한 모델 -> time complexity 감소이후에 사용되는 bert,