‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.
논문 URL - https://arxiv.org/abs/2005.11401
-> 순환 계층(recurrent layers)으로 인해 발생하는 연산량 증가, 메모리 제약 등의 한계를 극복하는 언어 모델 아키텍처를 만든다.
문제 상황 : 순환 모델(순환 신경망 등)의 순차적 특성은 훈련 예제 내에서 병렬화를 방해하며, 시퀀스 길이가 길어질수록 메모리 제약으로 인해 예제 간 배치 처리에 제한이 가해짐.
해결 방법 : 순환 구조(recurrence)를 배제하고, 오직 Attention mechanism만을 활용해 입력과 출력 간의 전역적 의존성(global dependencies)을 학습하는 트랜스포머(Transformer) 모델 아키텍처를 제안
Transformer의 개념 : 어텐션 메커니즘을 통해 위치 간 거리에 관계없이 상수 시간 연산을 가능하게 하는 모델 아키텍처
Transformer의 작동 원리 :
Attention
주요 성과
RNN - 순환 신경망(Transformer에서 극복하고자 한 순환 계층의 한계를 파악하기 위함)
encoder-decoder architecture