‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.
논문 URL - https://arxiv.org/abs/1706.03762
Attention 이 전부다.The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks that include an encoder and a decoder.
-> 주요 시퀀스 변환 모델들은 인코더와 디코더를 포함하는 복잡한 순환 신경망(RNN) 또는 합성곱 신경망(CNN)에 기반한다
The best performing models also connect the encoder and decoder through an attention mechanism.
-> 최고의 성능을 자랑하는 모델도 인코더와 디코더를 attention 매커니즘으로 연결한다.
We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.
-> 우리는 순환 구조와 합성곱 연산을 완전히 배제하고, 오직 attention 메커니즘에 기반한 새롭고 간단한 네트워크 구조인 Transformer 를 제안한다.
Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train.
-> 두 가지 기계 번역 과제에 대한 실험 결과, 이 모델들은 품질 면에서 우수할 뿐 아니라 병렬 처리 가능성이 더 높고 훈련 시간도 현저히 적게 소요되는 것으로 나타났다
Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU.
-> 우리 모델은 WMT 2014 영-독 번역 과제에서 28.4 BLEU* 점수를 달성했으며, 이는 앙상블 모델을 포함한 기존 최고 기록보다 2 BLEU 점수 이상 향상된 수치다.

Scaled Dot-Product Attention
Multi-Head Attention
