46일차 딥러닝9 Transformer

차지예·2025년 7월 18일

BERT ELMO transformer 개발자 딥러닝 생성형AI

생성AI

목록 보기

41/56

📘 Transformer, BERT, ELMO 개념 정리

1. Transformer 개념

✅ 개요

Transformer는 2017년 논문 "Attention is All You Need" 에서 소개된 모델로,
RNN 없이도 시퀀스 데이터를 병렬로 처리할 수 있게 만든 딥러닝 구조입니다.
핵심은 Self-Attention 메커니즘을 이용해 각 단어가 문장 내 다른 모든 단어와의 관계를 학습하는 것입니다.

✅ Self-Attention 수식

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V

( Q ): Query
( K ): Key
( V ): Value
( d_k ): Key의 차원 수

✅ 구조 구성요소

Multi-Head Attention
Position-wise Feedforward Network
Residual Connection + Layer Normalization

✅ 구조 요약

Encoder-Decoder 구조
Positional Encoding으로 순서 정보를 학습
이후 BERT, GPT와 같은 다양한 모델들의 기반이 됨

2. BERT 개념

✅ 개요

BERT(Bidirectional Encoder Representations from Transformers)는
Transformer의 Encoder만 사용하며,
양방향 문맥 정보를 동시에 학습하는 사전학습(pre-training) 기반 모델입니다.

✅ 핵심 아이디어

Masked Language Model (MLM)
- 문장에서 일부 단어를 [MASK]로 가린 후 예측
Next Sentence Prediction (NSP)
- 두 문장이 연속된 문장인지 예측

✅ 구조 및 입력 포맷

입력: [CLS] 문장1 [SEP] 문장2 [SEP]
임베딩: Token + Segment + Position Embedding
출력: [CLS] 벡터는 분류, 나머지 토큰은 토큰 태스크에 사용

✅ 특징

다양한 NLP 태스크에서 fine-tuning 가능
문장 분류, 질의응답, NER 등에서 SOTA 달성

3. ELMo 개념

✅ 개요

ELMo(Embeddings from Language Models)는
문맥(context)에 따라 단어 임베딩이 달라지는 모델입니다.
기존 Word2Vec, GloVe와는 달리 동일한 단어라도 문장에 따라 벡터가 달라짐

✅ 구조

2-layer BiLSTM 기반 양방향 언어모델(BiLM)
- Forward LM: 왼쪽 → 오른쪽
- Backward LM: 오른쪽 → 왼쪽

✅ ELMo 벡터 계산 수식

\text{ELMo}_t = \gamma \sum_{l=0}^L s_l h_{t,l}

( h_{t,l} ): ( l )번째 층의 ( t )번째 단어의 은닉 상태
( s_l ): softmax-normalized 가중치
( \gamma ): 학습 가능한 스케일 파라미터

✅ 특징

문맥 반영형 단어 임베딩
계층적 표현 (구문/의미 정보 분리 가능)
Fine-tuning 없이도 다양한 태스크에 feature로 활용 가능
기존 모델 위에 쉽게 추가 가능

차지예

이전 포스트

45일차 딥러닝 8 Attention Mechanism

다음 포스트

46일차 딥러닝9 Transformer

생성AI

📘 Transformer, BERT, ELMO 개념 정리

1. Transformer 개념

✅ 개요

✅ Self-Attention 수식

✅ 구조 구성요소

✅ 구조 요약

2. BERT 개념

✅ 개요

✅ 핵심 아이디어

✅ 구조 및 입력 포맷

✅ 특징

3. ELMo 개념

✅ 개요

✅ 구조

✅ ELMo 벡터 계산 수식

✅ 특징

45일차 딥러닝 8 Attention Mechanism

47일차 자연어처리1 BERT

0개의 댓글