[Week 3-3]Attention Is You Need., 2017

yerim kim·2022년 3월 9일
0

wanted_preOnBoarding

목록 보기
4/4

Attention Is All You Need.,2017

Ashish Vaswani, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, Aidam N.Gomez, Lukasz Kaiser, Illia Polosukhin

Abstract

RNN과 CNN을 기반으로 한 모델이 가진 한계점(긴 학습시간, 병렬작업 불가능)을 해결하기 위해 attention 기법을 사용하는 transformer 모델을 소개한다.

Introduction

Transformer는 recurrence 하지 않고, attention 기법을 통해 input과 output 사이에 독립성을 보장하고자 하는 모델이다.

Model Architecture

대부분의 transduction 모델들이 그러하듯, Transformer 역시 encoder와 decoder로 나뉘어 있다.

Encoder and Decoder Stacks

encoder에 seqeunce (x1, ..., xn)을 넣으면, 이에 대한 다른 상징적인 의미의 z = (z1, ..., zn)으로 바꾼다. 이렇게 나온 z를 decoder가 받아 새로운 의미의 (y1, ..., yn)으로 바꿔준다.
encoder는 6개의 레이어로, 하나의 레이어당 두 개의 sub 레이어(self-attention, fully connected feed-forword) 로 나뉘어 있다.
decoder 역시 6개의 레이어로, encoder의 결과에 multi-head attention을 하는 layer가 추가된다.

Attention

Scaled Dot-Product Attention

Multi-Head Attention

Applications of Attention in our Model

Position-wise-Feed-Forword Networks

Embedding and Softmax

Positional Encoding

Why Self-Attention

Training

Training Data and Batching

Hardware and Schedule

Optimizer

Regularization

Results

Machine Translation

Model Variatioins

English Canstituency Parsing

Conclusion

profile
데이터 엔지니어를 향해

0개의 댓글