[논문리뷰] BERT

My_oyster_house·2024년 8월 23일

용어 사전

상식적 추론 (Commonsense Reasoning)

  • 사람들이 일상적으로 사용하는 상식을 바탕으로 상황을 이해하고 예측하는 능력
  • 예: "비가 오면 우산을 쓴다"는 상식을 통해 문장을 이해함

벤치마크 (Benchmark)

  • 성능을 평가하기 위한 기준이나 테스트
  • 예: 여러 모델의 성능을 비교하기 위해 공통적으로 사용하는 데이터셋이나 평가 방법
  • GLUE 벤치마크는 자연어 이해(NLU) 작업에서 모델들의 성능을 비교하기 위한 표준 테스트

미세 조정 (Fine-tuning)

  • 미세 조정 이란?:

    • 사전 학습된 모델에 간단한 분류 층 추가
    • 모든 매개변수를 다운스트림 작업에서 공동으로 학습
    미세 조정에서 "다운스트림 작업에서 공동으로 학습"의 의미
    - 사전 학습:
     - 큰 데이터셋을 사용해 모델을 미리 학습시켜, 언어의 기본적인 패턴을 이해하게 만드는 과정
     - 모델은 일반적인 언어 구조를 학습함
    
     - 미세 조정:
       - 이미 학습된 모델을 특정 작업(다운스트림 작업)에 맞게 조정하는 과정
       - 예: 감정 분석, 질문 응답 등
    
     - 공동으로 학습의 의미:
       - 사전 학습된 모델의 모든 매개변수를 특정 작업에 맞게 동시에 조정하며 학습
       - 특정 작업에 대해 모델의 성능을 최적화하기 위해 전체적으로 조정
       - 예: 감정 분석 작업을 위해 모델의 모든 매개변수를 최적화
  • 미세 조정의 장점:
    • 각 작업에 대해 최적의 성능을 발휘하도록 매개변수 조정
    • 작은 데이터셋에서도 효과적인 학습 가능

GLUE (General Language Understanding Evaluation)

  • GLUE란?

    • 자연어 처리(NLP) 모델의 성능을 평가하기 위한 표준화된 벤치마크
    • 다양한 언어 이해 작업에서 모델이 얼마나 잘 수행하는지를 측정
  • GLUE의 주요 특징

    • 다양한 작업:
      • 여러 개의 언어 이해 과제를 포함
      • 텍스트의 의미를 이해하고 추론하는 능력을 테스트
    • 종합 평가:
      • 여러 작업에서의 종합적인 성능을 평가
      • 단일 작업의 성능보다는 다양한 작업에서의 성능이 중요
    • 리더보드:
      • 최신 NLP 모델들이 경쟁하는 리더보드를 운영
      • 모델의 점수는 GLUE에 포함된 여러 작업에서의 성능을 종합하여 계산
    • 문제의 다양성:
      • 다양한 유형의 텍스트 데이터와 과제가 포함
      • 모델이 다양한 언어적 도전에 어떻게 대응하는지 평가
  • GLUE에 포함된 주요 작업들

    • MNLI (Multi-Genre Natural Language Inference):
      • 서로 다른 장르의 텍스트 쌍을 기반으로 한 자연어 추론 작업
    • QQP (Quora Question Pairs):
      • Quora 플랫폼에서 질문 쌍이 같은 의미를 가지고 있는지 판단하는 작업
    • QNLI (Question Natural Language Inference):
      • SQuAD의 질문-문장 쌍을 사용하여 질문이 문장의 답인지 여부를 판별하는 작업
    • SST-2 (Stanford Sentiment Treebank):
      • 영화 리뷰에서 감정(긍정/부정)을 예측하는 감정 분석 작업
    • CoLA (Corpus of Linguistic Acceptability):
      • 문장이 문법적으로 올바른지 여부를 판단하는 작업
  • GLUE의 중요성

    • 모델의 일반화 능력 측정:
      • GLUE는 다양한 작업에서 모델이 고루 잘하는지를 평가
    • 표준 벤치마크로 자리매김:
      • NLP 모델의 성능을 비교하는 데 널리 사용되는 표준 벤치마크
      • 연구자들이 모델을 평가하고 비교하는 데 필수적인 기준으로 활용

논문 리뷰

1. Introduction

  • 언어 모델 사전 학습이 NLP 작업의 성능을 크게 향상시키는 것으로 입증됨
  • 기존 방법론의 문제점:
    • 단방향 언어 모델만 사용하여 문맥을 충분히 활용하지 못함
  • BERT: 양방향 학습을 통해 문맥을 더 잘 반영하는 새로운 모델 제안
  • 목표: BERT가 다양한 NLP 작업에서 최첨단 성능을 달성할 수 있음을 입증
  • 기존 연구:
    • 특징 기반 접근법(ELMo): 사전 학습된 표현을 작업별 아키텍처에 통합
    • 미세 조정 접근법(OpenAI GPT): 사전 학습된 모델을 간단히 미세 조정
  • 제한사항:
    • 기존 모델들은 단방향으로만 학습되어 문맥 활용이 제한적임
    • BERT는 양방향 학습을 통해 이 문제를 극복

3. BERT

  • BERT의 아키텍처

    • 다층 양방향 변환기 인코더 사용
      • 여러 층(layer)으로 이루어진 구조
      • 문장을 이해할 때 앞뒤 문맥을 모두 고려
    • BERTBASE:
      • 층 수: 12개
      • 은닉 크기: 768
      • Self-Attention Head 수: 12개
      • 총 매개변수: 1억 1천만 개
    • BERTLARGE:
      • 층 수: 24개
      • 은닉 크기: 1024
      • Self-Attention Head 수: 16개
      • 총 매개변수: 3억 4천만 개
  • 사전 학습

    • Masked LM (마스크된 언어 모델)
      • 입력 문장에서 일부 단어를 무작위로 가림
      • 가려진 단어를 문맥을 이용해 예측
      • 양방향 문맥을 사용해 문장을 더 정확히 이해
      • 예: "나는 [MASK]를 좋아해"에서 [MASK]에 들어갈 단어 예측
    • Next Sentence Prediction (다음 문장 예측)
      • 두 문장이 실제로 연결되는지 예측
      • 문장 쌍의 관계를 학습
      • 예: "나는 책을 읽었다" 다음에 "그리고 잠이 들었다"가 올 확률을 계산
  • 입력/출력 표현

    • WordPiece 임베딩 사용
      • 단어를 작은 조각으로 나누어 표현
      • 예: "책상"을 "책"과 "상"으로 나눠서 표현
    • [CLS] 토큰
      • 문장의 대표로 사용되는 특별한 토큰
      • 분류 작업에서 사용
    • [SEP] 토큰
      • 문장과 문장을 구분하는 역할
      • 예: 질문과 답변을 구분

4. Experiments

  • 11가지 NLP 작업에서 BERT의 성능 평가
  • GLUE 벤치마크:
    • 벤치마크란 성능을 평가하기 위한 기준이나 테스트
    • GLUE는 다양한 자연어 이해 작업을 포함한 표준 벤치마크
    • BERT가 모든 작업에서 최고의 성능을 기록
  • SQuAD v1.1/v2.0:
    • 질문 응답 작업에서 최고 성능 달성
    • BERT 모델이 앙상블 시스템을 능가함
  • SWAG:
    • 상식적 추론(Commonsense Reasoning)을 평가하는 작업
      • 상식적 추론: 일상적인 상식을 바탕으로 상황을 이해하고 예측하는 능력
      • 예: "비가 오면 우산을 쓴다"는 상식을 이용해 문장을 이해
    • BERT는 SWAG에서 높은 성능을 기록

5. Ablation Studies

  • 사전 학습 작업의 중요성:
    • NSP 작업 제거 시 성능 저하
    • 좌우 단방향 모델이 양방향 모델보다 성능이 떨어짐
  • 모델 크기의 효과:
    • 더 큰 모델이 더 나은 성능을 보여줌
    • 특징 기반 접근법에서도 BERT가 효과적임

6. Conclusion

  • BERT의 핵심 기여:

    • BERT는 이전의 단방향 모델들에 비해 양방향 학습을 사용하여 문장을 더 깊이 이해할 수 있게 함
    • 다양한 NLP 작업에서 최첨단 성능을 기록하며, BERT 모델이 여러 작업에 매우 효과적임을 입증
  • 사전 학습의 중요성:

    • BERT는 대규모의 비지도 학습(라벨이 없는 데이터로 학습)을 통해 다양한 작업에서 좋은 성능을 발휘할 수 있음
    • 예를 들어, 질문 응답, 감정 분석, 문장 관계 예측 등에서 높은 성능을 달성함
  • BERT의 혁신적 접근:

    • BERT는 마스크된 언어 모델(Masked Language Model, MLM)다음 문장 예측(Next Sentence Prediction, NSP)이라는 두 가지 사전 학습 방법을 도입하여 양방향으로 문장을 이해하도록 설계됨
    • 이러한 접근 방식 덕분에 BERT는 단방향 모델과 달리 문장의 앞뒤 맥락을 모두 고려할 수 있음
  • 미세 조정의 용이성:

    • BERT는 사전 학습된 모델에 간단한 출력 층을 추가하여 다양한 작업에 적용할 수 있음
    • 미세 조정(fine-tuning) 과정에서, 사전 학습된 BERT 모델을 각 작업에 맞게 조정하여 최고 성능을 이끌어냄
  • 결과의 시사점:

    • BERT는 큰 데이터셋뿐만 아니라 작은 데이터셋에서도 성능을 크게 향상시킬 수 있음을 입증함
    • 이는 NLP 분야에서 양방향 사전 학습이 매우 효과적이며, 다양한 응용 가능성을 제공함을 보여줌
profile
kwonhs.alice@gmail.com

0개의 댓글