constituency parsing: 문장이 구 단위로 묶여서 구조를 이루어가는 방법으로 영어와 같이 어순이 고정된 언어에서 쓰인다.
RNN 중에 LSTM과 GRU는 시퀀스 모델링, 언어 모델링, 기계 번역 같은 transduction 문제에서 SOTA 접근법으로 사용되어 왔었다.
→ transduction : 관찰된 학습 데이터에서 테스트 데이터를 추론하는 것, 특정 예제를 이용해서 다른 특정 예제를 예측하는 것을 설명하기 위해서 사용된다.
transducer: input에서의 각 time step에 대해서 output에서 하나의 time step을 출력하는 모델
Recurrent model은 input과 output sequence의 토큰 위치에 따라 계산을 분해하여 진행한다. 계산 시점에서 를 과 t step에서의 input으로 생성한다. 이 sequential한 특성은 train에서 병렬화를 배제시킨다. 그리고 이러한 메모리 제약이 sample 간의 batch화를 제한해서 더 긴 길이의 시퀀스를 처리할 때 critical한 문제가 된다.
Attention 메커니즘은 input, output 시퀀스에서 거리에 상관없는 의존성 모델링을 가능하게 함으로써 다양한 task의 시퀀스 모델링 및 transduction 모델에서 빠질 수 없는 부분이 되고 있다.
Input과 output간의 global한 dependency를 추출하기 위해 전적으로 Attention에 의존하는 모델을 제한
진명훈 님의 Transformer review
RNN은 data가 sequence하게 입력된다.
Transformer는 입력을 한꺼번에 받아들여서 입력 순서를 알지 못한다
Encoding → 고정된 규칙
Embedding → Learnable
Query와 Key의 dot product를 해서 유사도를 구한다.
Encoder와 Decoder 모두에서 토큰 연산을 하지 않기 위해여 masking을 진행한다.