46일차 딥러닝9 Transformer

차지예·2025년 7월 18일

생성AI

목록 보기
41/56
post-thumbnail

📘 Transformer, BERT, ELMO 개념 정리


1. Transformer 개념

✅ 개요

  • Transformer는 2017년 논문 "Attention is All You Need" 에서 소개된 모델로,
    RNN 없이도 시퀀스 데이터를 병렬로 처리할 수 있게 만든 딥러닝 구조입니다.
  • 핵심은 Self-Attention 메커니즘을 이용해 각 단어가 문장 내 다른 모든 단어와의 관계를 학습하는 것입니다.

✅ Self-Attention 수식

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V
  • ( Q ): Query
  • ( K ): Key
  • ( V ): Value
  • ( d_k ): Key의 차원 수

✅ 구조 구성요소

  • Multi-Head Attention
  • Position-wise Feedforward Network
  • Residual Connection + Layer Normalization

✅ 구조 요약

  • Encoder-Decoder 구조
  • Positional Encoding으로 순서 정보를 학습
  • 이후 BERT, GPT와 같은 다양한 모델들의 기반이 됨

2. BERT 개념

✅ 개요

  • BERT(Bidirectional Encoder Representations from Transformers)는
    Transformer의 Encoder만 사용하며,
    양방향 문맥 정보를 동시에 학습하는 사전학습(pre-training) 기반 모델입니다.

✅ 핵심 아이디어

  1. Masked Language Model (MLM)
    • 문장에서 일부 단어를 [MASK]로 가린 후 예측
  2. Next Sentence Prediction (NSP)
    • 두 문장이 연속된 문장인지 예측

✅ 구조 및 입력 포맷

  • 입력: [CLS] 문장1 [SEP] 문장2 [SEP]
  • 임베딩: Token + Segment + Position Embedding
  • 출력: [CLS] 벡터는 분류, 나머지 토큰은 토큰 태스크에 사용

✅ 특징

  • 다양한 NLP 태스크에서 fine-tuning 가능
  • 문장 분류, 질의응답, NER 등에서 SOTA 달성

3. ELMo 개념

✅ 개요

  • ELMo(Embeddings from Language Models)는
    문맥(context)에 따라 단어 임베딩이 달라지는 모델입니다.
  • 기존 Word2Vec, GloVe와는 달리 동일한 단어라도 문장에 따라 벡터가 달라짐

✅ 구조

  • 2-layer BiLSTM 기반 양방향 언어모델(BiLM)
    • Forward LM: 왼쪽 → 오른쪽
    • Backward LM: 오른쪽 → 왼쪽

✅ ELMo 벡터 계산 수식

ELMot=γl=0Lslht,l\text{ELMo}_t = \gamma \sum_{l=0}^L s_l h_{t,l}
  • ( h_{t,l} ): ( l )번째 층의 ( t )번째 단어의 은닉 상태
  • ( s_l ): softmax-normalized 가중치
  • ( \gamma ): 학습 가능한 스케일 파라미터

✅ 특징

  • 문맥 반영형 단어 임베딩
  • 계층적 표현 (구문/의미 정보 분리 가능)
  • Fine-tuning 없이도 다양한 태스크에 feature로 활용 가능
  • 기존 모델 위에 쉽게 추가 가능

0개의 댓글