Since Transformer doesn't introduce recurrence or convolution, it is ignorant of positional information (especially for the encoder).intorduce : 도입하다
Transformer는 반복이나 회선을 도입하지 않기 때문에 위치 정보(특히 인코더의 경우)를 무시합니다.
Thus additional positional representation(Detailed discusssion in Sec. 5.1) is needed to model the ordering of tokens.
따라서 토큰의 순서를 모델링하려면 추가적인 위치 표현(5.1절에서 자세히 설명)이 필요합니다.
Generally, the Transformer architecture can be used in three different ways: