
✅ 개요
- Transformer는 2017년 논문 "Attention is All You Need" 에서 소개된 모델로,
RNN 없이도 시퀀스 데이터를 병렬로 처리할 수 있게 만든 딥러닝 구조입니다.
- 핵심은 Self-Attention 메커니즘을 이용해 각 단어가 문장 내 다른 모든 단어와의 관계를 학습하는 것입니다.
✅ Self-Attention 수식
Attention(Q,K,V)=softmax(dkQKT)V
- ( Q ): Query
- ( K ): Key
- ( V ): Value
- ( d_k ): Key의 차원 수
✅ 구조 구성요소
- Multi-Head Attention
- Position-wise Feedforward Network
- Residual Connection + Layer Normalization
✅ 구조 요약
- Encoder-Decoder 구조
- Positional Encoding으로 순서 정보를 학습
- 이후 BERT, GPT와 같은 다양한 모델들의 기반이 됨
2. BERT 개념
✅ 개요
- BERT(Bidirectional Encoder Representations from Transformers)는
Transformer의 Encoder만 사용하며,
양방향 문맥 정보를 동시에 학습하는 사전학습(pre-training) 기반 모델입니다.
✅ 핵심 아이디어
- Masked Language Model (MLM)
- 문장에서 일부 단어를 [MASK]로 가린 후 예측
- Next Sentence Prediction (NSP)
✅ 구조 및 입력 포맷
- 입력: [CLS] 문장1 [SEP] 문장2 [SEP]
- 임베딩: Token + Segment + Position Embedding
- 출력: [CLS] 벡터는 분류, 나머지 토큰은 토큰 태스크에 사용
✅ 특징
- 다양한 NLP 태스크에서 fine-tuning 가능
- 문장 분류, 질의응답, NER 등에서 SOTA 달성
3. ELMo 개념
✅ 개요
- ELMo(Embeddings from Language Models)는
문맥(context)에 따라 단어 임베딩이 달라지는 모델입니다.
- 기존 Word2Vec, GloVe와는 달리 동일한 단어라도 문장에 따라 벡터가 달라짐
✅ 구조
- 2-layer BiLSTM 기반 양방향 언어모델(BiLM)
- Forward LM: 왼쪽 → 오른쪽
- Backward LM: 오른쪽 → 왼쪽
✅ ELMo 벡터 계산 수식
ELMot=γl=0∑Lslht,l
- ( h_{t,l} ): ( l )번째 층의 ( t )번째 단어의 은닉 상태
- ( s_l ): softmax-normalized 가중치
- ( \gamma ): 학습 가능한 스케일 파라미터
✅ 특징
- 문맥 반영형 단어 임베딩
- 계층적 표현 (구문/의미 정보 분리 가능)
- Fine-tuning 없이도 다양한 태스크에 feature로 활용 가능
- 기존 모델 위에 쉽게 추가 가능