BERT - 2019

@esthrelar·2023년 8월 20일
0

Abstract

BERT (Bidirectional Encoder Representations from Transformers)
: 새로운 언어 표현 모델

최근의 언어 표현 모델들과 다른 점

: 모든 레이어에서 왼쪽과 오른쪽 문맥 모두에 대한 조건부를 동시에 고려
-> 미타겟 스크립트 없는 텍스트로부터 깊은 양방향 표현을 사전 학습하는데 사용됨.
-> 결과적으로, 사전 학습된 BERT 모델은 추가적인 출력 레이어 하나만 조정하여 질문응답언어 추론 등 다양한 작업을 위한 최첨단 모델을 생성할 수 있음. (이때 작업 별 구조 변경 거의 없이 가능)

성과

  • GLUE 점수 : 80.5%로 끌어올림 (절대적 개선 7.7%)
  • MultiNLI 정확도: 86.7%로 높임 (절대적 개선 4.6%)
  • SQuAD v1.1 질문 응답 테스트 F1: 93.2 (절대적 개선 1.5 포인트)
  • SQuAD v2.0 테스트 F1: 83.1 (절대적 개선 5.1 포인트)

1. Introduction

언어 모델 사전 학습 : 많은 자연어 처리 작업의 성능 향상에 효과적인 것으로 입증됨.

언어 모델 사전 학습은 자연어 처리 작업을 위해 대량의 텍스트 데이터를 활용하여 모델을 사전에 훈련하는 접근 방식입니다. 
이는 일반적으로 대규모 텍스트 말뭉치를 사용하여 모델을 사전 훈련하고, 그런 다음 특정 작업에 맞게 해당 모델을 미세 조정하여 작업에 적용하는 것을 의미합니다. 
이 접근 방식은 각종 자연어 처리 작업에서 뛰어난 성능을 보여준 것으로 입증되었습니다.

여기서 언어 모델 사전 학습과 관련된 주요 용어를 이해하고 넘어갈 필요가 있습니다.

1. 문장 수준 작업:
   - 자연어 추론: 주어진 두 문장의 관계를 추론하는 작업입니다. 예를 들어, 두 문장이 모순인지, 함께 어울리는지 등을 판별합니다.
   - 문장 재구성: 주어진 문장을 다시 구성하는 작업으로, 문장 간의 유사성과 구조를 분석하여 문장을 다시 정렬하거나 재구성합니다.

2. 토큰 수준 작업:
   - 개체명 인식: 주어진 문장에서 중요한 개체명(사람 이름, 지명 등)을 인식하는 작업입니다. 문장에서 어떤 단어가 어떤 유형인지 판별합니다.
   - 질문 응답: 주어진 문장과 질문에 대해 정확한 답변을 찾는 작업입니다. 모델은 문장에서 필요한 정보를 추출하거나 이해하여 질문에 답변합니다.

언어 모델 사전 학습은 이러한 다양한 작업을 위해 말뭉치로부터 단어와 문장의 패턴, 의미, 문맥을 학습합니다. 이로써 모델은 다양한 작업에서 보다 높은 일반화 능력을 갖게 됩니다. 더 나아가 BERT와 같은 모델은 사전 훈련된 언어 표현을 다양한 작업에 적용하여 성능을 향상시킬 수 있는데, 이는 다양한 작업에 대한 특징과 상호작용을 모델이 사전 학습한 표현을 통해 이용하기 때문입니다.
profile
moved to tistory. ( linked w/ the home btn below. )

0개의 댓글