NLP 논문 리뷰 -All you need is attention

Seungbeom oh·2024년 8월 19일
0

NLP - 논문리뷰

목록 보기
2/2

All you need is attention

논문 링크

  • 현재 AI의 유행을 이끌게 된 GPT를 만들 수 있었던 힘을 주었던 Transformer 구조에 대해 알아보자.

Abstract

  • 전통적으로 Sequnce Transduction(시퀀스 변환) 작업(Ex. 기계번역)들은 주로 Recurrent Neural Networks(RNN)와 Convolutional Neural Networks(CNN)를 기반으로 이루어지고, Encoder(인코더)와 Decoder(디코더) 구조를 가졌음.

    • 위에서 말하는 Sequence Transduction 관련해서 가장 유명한 논문은 Seq2seq with attention(2014)이라고 생각되는데, 해당 구조는 기본적으로 RNN 계열의 layer을 사용해서 기계번역을 할 수 있도록 처리하였다.
    • RNN 계열의 모델들은 기본적으로 Sequence를 처리할 때 뛰어나지만, Network가 깊어지면 깊어질수록 정보 손실이 많이 일어난다는 문제점이 있다.
  • attention(어텐션) 매커니즘에만 의존하는 새로운 접근 방식으로 더 뛰어나고 효율적인 병렬 처리가 가능하도록함.

    • 병렬 처리로 인한 학습 속도 상승과, 정확도 측면에서도 성공적인 성과를 보임.
    • RNN은 이전 시점의 계산 결과에 의존하기 때문에 입력 시퀀스의 각 요소들을 독립적으로 처리하지 못하는데, attention은 가능.
    • 특히, Self-Attention에서 각 입력 Sequence의 각 요소들은 모든 다른 요소들과의 관계를 동시에 계산하는데 이때 병렬처리를 통해 전체 Sequence에 대해 한번에 처리할 수 있다.

Introduction

profile
AI Engineer 오승범

0개의 댓글

관련 채용 정보