쌩 텍스트로 학습하는 능력은 지도 학습의 의존성을 줄이는 데에 중요하다. 대부분 자연어처리 모델은 직접 라벨링한 데이터를 쓰는데, 데이터가 부족한 도메인에서 쓰기에는 한계가 있기 때문에, 라벨링이 되지 않은 데이터에서 주석(라벨을 뜻하는 건가?)을 뽑아낼 수 있는 모델이 중요하다.
하지만 라벨이 없는 데이터에서 정보를 얻기란 두 가지 이유로 어려운데,
1. 전이를 할 수 있는 표현을 학습하기에 어떤 최적화 목표가 있는지 불분명하다.
2. 표현을 목표하는 태스크에 전이하기에 가장 효과적인 방법이 무엇인지 결정된 바가 없다.
비지도 사전 훈련
+ 지도 파인튜닝
을 사용하는 반지도학습 모델을 소개한다.
비지돋된 코퍼스의 토큰 가 있을 때 이 likelihood를 최대화하기 위한 언어모델을 사용.
는 context window의 크기, 는 신경망 파라미터. SGD를 사용해서 훈련되었음.
언어 모델로 트랜스포머 디코더 사용. 인풋 토큰에 대해 멀티헤드 셀프 어텐션 적용하는 모델임
는 토큰들의 컨텍스트 벡터, n은 레이어 개수, 는 토큰 임베딩 매트릭스, 는 포지션 임베딩 매트릭스
목적함수로 모델을 학습시킨 다음, 파라미터들을 지도 타겟 태스크에 적용함.
라벨된 데이터셋 안에 각 인스턴스는 인풋 토큰 과 라벨 가 존재.
인풋들은 사전학습된 모델을 지나서 마지막 트랜스포머 블록의 activation 값인 을 얻고, 이 값은 선형 아웃풋 층에 들어가서 파라미터로 를 예측하게 된다.
이렇게 되면 이 층은 이 목적함수를 최대화하는 방향으로 학습된다.
또한 부가적인 목적으로 파인 튜닝에 언어 모델을 추가하는 것이 지도 학습 모델의 일반화를 개선하고, 빠르게 수렴할 수 있게 하는 것을 발견했다.
그래서 이 목적에서는 다음의 함수를 최적화한다. 는 가중치이다.
결론적으로, 파인튜닝 단계에서 추가로 필요한 파라미터는 와 구분자 토큰에 대한 임베딩 뿐임.
다음은 1, 2 과정을 시각화한 그림이다.
텍스트 분류와 같은 태스크는 바로 파인튜닝을 할 수 있지만, 질의응답이나 함의관계와 같은 태스크는 문장쌍 같은 구조화된 인풋이 필요하다. 하지만 사전학습 모델은 인접한 시퀀스들에 대해 학습했기 때문에, 이 구조를 맞춰주는 추가 작업이 필요하다.
이전 연구들은 태스크마다 맞춤 모델을 소개했지만, 여기서는 traversal style을 사용했다. 구조화된 인풋을 시퀀스로 변환하는 작업이다. 이 변환 작업은 큰 변화 없이도 사전학습 모델을 다양한 태스크에 적용할 수 있게 한다.
전이된 층의 개수에 따른 모델 성능 확인
MultiNLI와 RACE 데이터셋에 전이된 층의 개수에 따른 모델의 성능을 관찰한 결과 MultiNLI에는 모든 전이를 했을 때 성능이 최대 9% 까지 올라가는걸 확인함. 즉 전이된 각 층이 태스크 수행에 유용하다는걸 의미.
왜 트랜스포머의 LM 사전학습이 효과적인가
먼저 두 가지의 가설을 세움.
1. 생성 모델은 언어 모델링 능력을 개선하기 위해 다양한 태스크를 학습한다.
2. 트랜스포머의 구조화된 attentional 메모리가 LSTM과 비교했을 때 전이에 도움이 된다.
지도된 파인튜닝 없이 태스크를 수행했을 때 성능이 어떤지 휴리스틱한 답을 디자인했다.
그래프를 보면 휴리스틱이 안정적이고 지속적으로 증가한 것으로 보아 generative pre-training이 다양한 태스크의 기능성을 학습하는 데 도움이 되는 것을 확인했다.
그리고 LSTM이 제로샷 성능에서 더 높은 분산을 보인다. 즉 트랜스포머의 inductive bias가 전이에 도움이 된다.
3가지의 다른 ablation studies 비교
ablation: 삭마, 절제
라고 함. 하나씩 제외하고 성능 비교하는걸 말하는 듯.
파인튜닝 과정에서 LM 목적 없이
부가적인 목적이 NLI, QQP 태스크에서 도움이 되는 것을 확인할 수 있다. 큰 데이터셋에서는 효과를 보이지만 작은 데이터셋은 그렇지 않았다.
트랜스포머와 단일층 2048 유닛 LSTM 비교
LSTM은 평균 5.6의 스코어가 떨어진 것을 확인할 수 있었다. MRPC에서만 트랜스포머 능가했음.
사전학습 없이 트랜스포머를 바로 지도학습 태스크에 훈련
사전학습 없이는 모든 태스크에서 성능이 안 좋았고, 전체 모델과 비교했을 때 14.8%의 성능 저하를 확인함.
-끝-
헷