[논문 리뷰 - 2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

shanny·2025년 7월 11일

논문 리뷰

목록 보기

33/42

‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.

논문 URL - https://arxiv.org/abs/1810.04805

언어 모델의 사전학습은 다양한 자연어처리(NLP) 작업의 성능을 크게 향상시키는 것으로 나타난다. 이러한 작업에는 문장 간 관계를 예측하는 자연어 추론(NLI), 문장 paraphrasing(의역), 개체명 인식(NER), 질의응답(QA) 등 문장 단위와 토큰 단위 과제가 모두 포함된다.
사전학습된 언어모델은 대규모 비지도 데이터로 먼저 일반적인 언어 특성을 학습한 뒤, 적은 양의 데이터로도 미세조정(fine-tuning)만으로 높은 성능을 낼 수 있어 NLP 분야에서 매우 널리 활용된다.

사전학습된 언어 표현을 다운스트림 작업에 적용하는 전략에는 피처기반(feature-based) 방식과 파인튜닝(fine-tuning) 방식 두 가지가 있다.
- 피처기반 방식(예: ELMo)은 사전학습된 임베딩을 추가적인 입력 피처로 활용하며, 작업별로 별도의 아키텍처를 사용한다.
- 파인튜닝 방식(예: OpenAI GPT)은 작업별로 최소한의 파라미터만 추가하고, 사전학습된 모든 파라미터를 해당 작업에 맞게 추가 학습한다.
두 방식 모두 사전학습 단계에서는 일반적인 언어 표현을 학습하기 위해 단방향 언어 모델을 사용한다.
피처기반은 사전학습 모델의 가중치를 고정하고 임베딩만 활용하는 반면, 파인튜닝은 사전학습 모델 전체 또는 일부의 가중치를 실제 작업에 맞게 업데이트한다.

현재의 기법들은, 특히 파인튜닝 방식에서, 사전학습된 언어 표현의 잠재력을 제한한다.
주요 한계는 표준 언어 모델이 단방향(unidirectional) 구조라는 점이며, 이로 인해 사전학습에서 사용할 수 있는 아키텍처 선택이 제한된다.
예를 들어, OpenAI GPT에서는 좌에서 우로만 정보를 처리하는 구조를 사용하여, 트랜스포머의 셀프어텐션 레이어에서 각 토큰이 이전 토큰에만 주의를 기울일 수 있다.
이와 같은 제한은 문장 단위 작업에서는 최적이 아니며, 특히 질문 답변과 같이 토큰 단위에서 양방향 문맥이 중요한 작업에 파인튜닝 방식을 적용할 때 성능 저하로 이어질 수 있다.

이 논문에서는 BERT(Bidirectional Encoder Representations from Transformers)를 제안하여 파인튜닝 기반 접근법을 개선한다.
기존 언어 모델이 단방향 구조라 문맥 정보를 충분히 활용하지 못하는 한계를, BERT는 마스킹 언어 모델(Masked Language Model, MLM) 사전학습 목표를 도입해 해결한다.
MLM은 입력 문장에서 일부 토큰을 무작위로 마스킹하고, 주변 문맥만을 가지고 마스킹된 단어의 원래 값을 예측하도록 학습한다. 이 방식은 기존의 좌→우 언어 모델과 달리, 좌우 양방향 문맥 정보를 모두 융합할 수 있게 하여 딥 양방향 트랜스포머를 사전학습할 수 있게 한다.
또한, BERT는 다음 문장 예측(Next Sentence Prediction, NSP) 과제를 추가로 도입해, 문장 쌍에 대한 표현도 함께 사전학습한다.
즉, BERT는 MLM과 NSP 두 가지 과제를 통해, 기존 단방향 모델의 한계를 극복하고 다양한 자연어처리 작업에 효과적으로 적용할 수 있는 강력한 언어 표현을 학습한다.

최근 언어 모델을 활용한 전이학습(transfer learning) 연구들은, 풍부한 비지도 사전학습이 다양한 언어 이해 시스템의 핵심 요소임을 보여준다.
특히, 이러한 결과는 데이터가 적은 작업(low-resource tasks)에서도 딥 단방향 아키텍처의 이점을 누릴 수 있게 한다.
이 논문의 주요 기여는 이러한 성과를 딥 양방향 아키텍처로 확장한 점에 있다.
이를 통해 동일한 사전학습 모델이 다양한 자연어처리(NLP) 작업에 효과적으로 적용될 수 있음을 입증한다.

데이터 분석가