(수정중) Transformer

AttractiveMinki·2022년 2월 11일
0

필요한 건 Attention 뿐

논문 보러가기

요약

주요(Dominant) 시퀀스 변환 모델들은 encoder와 decoder를 포함하는 복잡한 Recurrent/Convolutional Neural Network에 기반을 두고 있다. 최고 성능의 모델 또한 attention mechanism을 통해 decoder와 encoder를 연결한다. 우리는 Transformer라는, 회귀(recurrent)와 컨볼루션(convolution)들을 배제한, 오로지 attention mechanism을 따르는 새롭고 간단한 Network architecture를 소개한다.

두 가지 기계번역 업무들에서, 이 transformer 모델들은 우월한 성능을 보였고, 병렬화를 통해 학습에 요구되는 시간을 획기적으로 줄였다. WMT 2014 영어-독일어 번역에서 28.4 BLEU(Bilingual Evaluation Understudy Score, 기계 번역 결과와 사람 번역 유사도 비교해 성능 측정)를 달성해, 앙상블을 포함한 기존의 최고 결과를 2BLEU 이상 향상시켰다. WMT 2014 영어-프랑스에 번역에서도 새로운 단일 모델 SOAT(State-of-the-art, 현재 최고 수준의 결과) BLUE 점수를 달성했다. Transformer는 기계번역 뿐만 아니라, English constituency parsing(영어권 유권자 분석)와 같은 다른 업무도 잘 일반화(generalize)시켰다.

1. Introduction

RNN, LSTM, GRU는 sequence modeling과 기계번역 등과 같은 transduction(전달, 변환) 문제에서 SOAT한 접근법으로 자리매김해왔었다. Recurrent language models들과 encoder-decoder architecture를 발전시키기 위한 여러 노력들이 계속되고 있다.

Recurrent 모델들은 일반적으로 입력과 출력 시퀀스들의 symbol 위치에 따라 factor를 계산한다. 계산할 때 각 step에 따라 위치를 정렬하고, 이전 hidden state인 h_t-1, input t에 따라 hidden state h_t를 만든다. 이러한 순차적 특성은 본질적으로 예제 트레이닝 내의 병렬화를 방지하는데, 메모리 제약이 예제 사이의 일괄적인 처리를 제한하기 때문에, sequence 길이가 길어질수록 (본질적인 순차적 특성은)치명적이다. (Recurrent 모델들은) factorization tricks(인수분해 트릭)과 같은 최근 연구를 통해 계산 효율성을 크게 개선시켰고, conditional computation(조건부 계산) 연구는 계산 효율성뿐만 아니라, 모델 성능도 개선했다. 그러나, sequential한 연산의 근본적인 제약은 아직 남아 있다.

Attention mechanism은 input이나 output sequences에서 거리에 상관 없이 의존성(dependencies) 모델링을 가능하게 하면서, 여러 업무에서 설득력 있는 sequence modeling과 transduction(변환) 모델의 빠질 수 없는 부분이 되어가고 있다. 그러나 몇 가지 경우를 제외하고, attention mechanism은 Recurrent Network와 함께 사용된다.

본 논문에서 우리는 input과 output간의 global한 dependencies를 찾기 위해 recurrence에서 벗어나, 전적으로 attention mechanism에 의존하는 Transformer를 제안한다. Transformer는 훨씬 더 많은 병렬화가 가능하고, 8개의 P100 GPU에서 12시간만 훈련해도, 새로운 SOTA수준의 번역 품질을 제공한다.

향후 추가 예정

참고자료

https://velog.io/@changdaeoh/Transformer-%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0

0개의 댓글