Transformer, BERT, GPT

seongyong·2021년 6월 19일

NLP

목록 보기

4/4

attention 메커니즘을 극대화하여 기존의 RNN구조를 사용하지않고 attention만으로 인코더 디코더를 형성하여 기계번역을 시행한다.

장점 : RNN 기반 모델이 가진 구조적 단점은 단어가 순서대로 들어온다는 점이다. 트랜스포머는 이런 문제를 해결하여 많은 양의 데이터를 병렬적으로 처리가능하다.
논문에서의 파라미터
- d_model(인코더, 디코더의 입력과 출력) : 512
  
  임베딩 벡터의 차원 또한 512 /각 인코더와 디코더가 다음 층의 인코더와 디코더로 값을 보낼 때에도 유지
- num_layer : 6
  
  인코더와 디코더가 총 6층
- num_heads : 8
  
  어텐션을 사용할때 앙상블마냥 병렬로 어텐션을 수행하고 결과값을 다시 하나로 합침. 병렬의 개수
- dff : 2048
  
  트랜스포머 내부에는 피드 포워드 신경망이 존재한다. 이때 은닉층의 크기를 의미

RNN이 자연어 처리에서 유용했던 이유는 단어의 위치에 따라 단어를 순차적으로 입력받아서 처리하는 RNN의 특성으로 인해 각 단어의 위치 정보를 가질 수 있다는 점에 있었다.

self attention의 Q, K, V 벡터 얻기

d_model / num_heads의 차원을 가지는 서로다른 3개의 가중치를 이용하여 Q, K, V를 얻어냄
다음으로 attention value를 얻어내는데 이 과정은 본래 attention에서의 과정과 다르지않음. Q, K의 유사도를 통해 가중치를 구하고 이를 V에 적용 후 합하기
attention value 행렬의 크기는(seq_len, dv) = (문장길이, d_model / num_heads)
attention value는 총 8개로 설정, 이 attention value들을 multi head attention이라함
multi head attention 행렬의 크기는(seq_len, d_model)
위의 것이 바로 multi head attention의 출력값인데 행렬의 크기가 계속 유지되고 있음을 알 수 있다. 인코더가 여러개라 형태 유지 해야함.
출력값은 Position-wise FFNN이라는 일반적인 뉴럴넷에 입력으로 사용된다.

masked multi-head self-attention : 다음 문장을 예측할때는 이전 문장의 정보만으로 예측을 해야한다. 이를 구현해주기 위해 masking이라는 개념을 도입했다.

먼저 인코더에서와 같이 디코더의 타겟 문장(번역된 문장)들에 대해서 self attention을 적용한다.

예측되지않은 text(예측하고자하는 text의 우측)에 대해서는 아주 작은 음수값으로 attention값을 바꿔준다. 이를 masking이라 하는데 masking은 유사도를 계산하는데 masking된 값들이 반영되지않도록 해준다.
encoder-decoder attention : decoder의 행렬을 query로 / key, value를 인코더에서 넘어온 행렬로 하여 attention 구하기

이를 통해 다음에 위치할 text를 찾아낸다.

GPT, BERT는 트랜스포머 구조를 변형하여 만들어진 언어 모델이다.

pre-trained language model : 대량의 데이터를 사용하여 미리 학습하는 과정

fine tuning : 실제로 사용할때 태스크에 특화된 데이터를 학습하는 과정, 학습시 레이블링 된 데이터(감성분석, 자연어 추론, 질의 응답) 등을 사용

GPT : 트랜스포머의 12개 디코더만을 사용하여 학습
- NLI(자연어 추론), QA(질의 응답), classification(분류) 등 자연어 생성과 관련된 태스크에서 높은 성능을 보임
- Auto- Regressive
BERT : 트랜스포머의 12개 인코더만을 사용하여 문맥을 양방향으로 읽어냄.
- BERT에는 [CLS], [SEP] 라는 새로운 token이 등장한다. [CLS]는 문장의 시작, [SEP]는 문장사이
- BERT의 사전 학습방법은 MLM, NSP가 있다.
  - MLM : 양방향 빈칸 채우기
  - NSP : [SEP] 토큰의 왼쪽 문장과 오른쪽 문장이 바로 이어지는 문장인지 확인
- BERT는 자연어 이해와 관련된 태스크에 좋은 성능을 보임
- Auto- Encoder