[PaperReview] Attention is All you Need

LeeYun·2024년 12월 20일

원문 : Vaswani, Ashish, 'Attention is All you Need' 2017
이번 논문은 Attention mechanism을 기반한 Transformer모델을 제시한다. RNN 모델의 장기 의존성(long-term dependency) 문제를 극복하고자 제안된 구조이며 BERT, GPT 모델의 기반이 되는 모델이기도 하다.


Abstract

기존 최적의 성능을 가진 시퀀스 변환 모델은 복잡한 RNN(순환신경망) 혹은
CNN(합성곱신경망)과 encoder/decoder를 포함하고 있다. 이를 보완하고자
encoder/decoder와 Attention-mechanism만을 사용하여 Network Architecture를 
구현한다. 이러한 Transformer Architecture는 다음과 같은 이점을 준다.

1. 품질 우수와 동시에 병렬 처리성이 높아져 훨씬 적은 학습시간을 요구한다.
2. WMT 2014 English to French 번역 작업에서 훨씬 개선된 성능을 보여줬다.
3. 크기가 크거나 한정된 학습데이터임에도 불구하고 여러 task들을 잘 일반화 시킨다.

1. Instruction

"RNN의 순환 처리 문제"

profile
AI/Network

0개의 댓글