Abstract 기존의 Sequence Transduction Model은 대부분 Encoder Decoder 구조를 포함한 복잡한 RNN이나 CNN으로 구성되어 있음 본 논문에서는 Reccurence와 convolution을 완전히 제거하고 attention mech