현재 AI의 유행을 이끌게 된 GPT를 만들 수 있었던 힘을 주었던 Transformer 구조에 대해 알아보자.
Abstract
전통적으로 Sequnce Transduction(시퀀스 변환) 작업(Ex. 기계번역)들은 주로 Recurrent Neural Networks(RNN)와 Convolutional Neural Networks(CNN)를 기반으로 이루어지고, Encoder(인코더)와 Decoder(디코더) 구조를 가졌음.
위에서 말하는 Sequence Transduction 관련해서 가장 유명한 논문은 Seq2seq with attention(2014)이라고 생각되는데, 해당 구조는 기본적으로 RNN 계열의 layer을 사용해서 기계번역을 할 수 있도록 처리하였다.
RNN 계열의 모델들은 기본적으로 Sequence를 처리할 때 뛰어나지만, Network가 깊어지면 깊어질수록 정보 손실이 많이 일어난다는 문제점이 있다.
attention(어텐션) 매커니즘에만 의존하는 새로운 접근 방식으로 더 뛰어나고 효율적인 병렬 처리가 가능하도록함.
병렬 처리로 인한 학습 속도 상승과, 정확도 측면에서도 성공적인 성과를 보임.
RNN은 이전 시점의 계산 결과에 의존하기 때문에 입력 시퀀스의 각 요소들을 독립적으로 처리하지 못하는데, attention은 가능.
특히, Self-Attention에서 각 입력 Sequence의 각 요소들은 모든 다른 요소들과의 관계를 동시에 계산하는데 이때 병렬처리를 통해 전체 Sequence에 대해 한번에 처리할 수 있다.