43일차 딥러닝 6 BiLSTM-CRF, BiLSTM-CNN

차지예·2025년 7월 16일

BiLSTM + CNN BiLSTM-CRF 개발자 딥러닝 생성형AI

생성AI

목록 보기

39/56

📘 BiLSTM-CRF 논문 요약

논문 제목: Neural Architectures for Named Entity Recognition
저자: Guillaume Lample et al. (CMU)
학회: ACL 2016

✅ 논문 목적

언어별 feature engineering 없이 작동하는 범용 NER 모델 제안
소규모 supervised corpus에서 높은 성능 달성
character 기반 임베딩 + 사전학습 word 임베딩 활용

✅ 모델 구성

🔹 BiLSTM-CRF 구조

입력: 단어 임베딩 + 문자 임베딩
표현: BiLSTM으로 좌우 문맥 정보
출력: CRF를 이용한 시퀀스 최적화 디코딩

🔹 임베딩 구성

Character-level: BiLSTM 기반 문자 임베딩
Word-level: skip-n-gram 사전 학습 임베딩
Dropout을 활용해 두 정보를 균형 있게 학습

✅ 학습 및 구현

Optimizer: SGD + gradient clipping
Dropout: 0.5 적용
IOBES tagging scheme 사용 (BIO보다 성능 향상)

✅ 실험 결과

English NER (CoNLL-2003): F1 = 90.94
German NER: F1 = 78.76
Dutch NER: F1 = 81.74
Spanish NER: F1 = 85.75
언어별 특화 자원 없이 SOTA 달성

✅ 구성 요소 효과 분석 (English 기준, F1 향상폭)

Pretrained word embeddings: +7.31
CRF layer: +1.79
Dropout: +1.17
Character embedding: +0.74

📘 BiLSTM-CNN-CRF 논문 요약

논문 제목: End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
저자: Xuezhe Ma & Eduard Hovy (CMU)
학회: ACL 2016

✅ 논문 목적

feature engineering 없이 완전한 end-to-end 구조로 POS, NER 문제 해결
character-level 정보 + word-level embedding + context + sequence decoding 결합

✅ 모델 구조

🔹 전체 구조

Char-level: CNN으로 접두사/접미사 등 형태소 정보 추출
Word-level: GloVe 등 사전학습 임베딩
Context: BiLSTM으로 좌우 문맥 정보 모델링
Sequence: CRF로 전체 문장 label 최적화
Dropout은 CNN 입력, BiLSTM 입출력에 적용

✅ 학습 세부사항

Optimizer: SGD + momentum + learning rate decay
Dropout rate: 0.5
Word embedding: GloVe 100D (성능 최상)
Batch size: 10

✅ 실험 결과

POS Tagging (WSJ): Accuracy = 97.55%
NER (CoNLL-2003): F1 = 91.21

✅ 구성별 ablation 분석

BLSTM > BLSTM-CNN > BLSTM-CNN-CRF 순으로 성능 향상
CRF 도입 시 OOV 성능 특히 개선됨
Word2Vec < Senna < GloVe 순으로 성능 좋음

✔️ BiLSTM-CRF vs BiLSTM-CNN-CRF 비교

항목	BiLSTM-CRF	BiLSTM-CNN-CRF
목적	다국어 NER, 범용성 강조	End-to-end 구조에서 최고 성능
Char 정보	Char-level BiLSTM	Char-level CNN
문맥 처리	BiLSTM	BiLSTM
시퀀스 디코딩	CRF	CRF
사전 임베딩	Skip-n-gram	GloVe 등
지원 언어	EN, DE, NL, ES	EN (POS/NER)
최고 성능	90.94 (EN NER)	91.21 (EN NER)

✔️ BiLSTM-CRF vs BiLSTM-CNN-CRF 논문의 목적 비교

항목	BiLSTM-CRF 논문	BiLSTM-CNN-CRF 논문
논문 제목	Neural Architectures for Named Entity Recognition	End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
주요 목적	언어 특화 리소스 없이 동작하는 범용 NER 모델 제안	전처리와 feature 없이 가능한 end-to-end 시퀀스 라벨링 모델 제안
핵심 구성 요소	Character-level BiLSTM + Word Embedding + CRF	Character-level CNN + Word Embedding + BiLSTM + CRF
특징	- 문자/분포 기반 정보 통합 - 다국어 적용 가능성 강조 - Stack-LSTM 구조도 함께 제안	- POS/NER 모두 적용 가능 - feature engineering 전혀 없음 - dropout 등 정규화 강조
적용 태스크	Named Entity Recognition (EN, DE, NL, ES)	POS Tagging (WSJ), Named Entity Recognition (CoNLL-2003 EN)
공통점	둘 다 사전학습된 임베딩 + CRF 사용 hand-crafted feature 없이 성능 향상 목표	동일
최종 목표 요약	문자 + 문맥 + CRF로 구조적 시퀀스 예측 모델 구성 (다국어 NER)	문자 + 단어 표현을 BiLSTM-CRF로 통합한 범용 시퀀스 라벨링 모델 구축

차지예

이전 포스트

44일차 딥러닝7 기계번역

다음 포스트

43일차 딥러닝 6 BiLSTM-CRF, BiLSTM-CNN

생성AI

📘 BiLSTM-CRF 논문 요약

✅ 논문 목적

✅ 모델 구성

🔹 BiLSTM-CRF 구조

🔹 임베딩 구성

✅ 학습 및 구현

✅ 실험 결과

✅ 구성 요소 효과 분석 (English 기준, F1 향상폭)

📘 BiLSTM-CNN-CRF 논문 요약

✅ 논문 목적

✅ 모델 구조

🔹 전체 구조

✅ 학습 세부사항

✅ 실험 결과

✅ 구성별 ablation 분석

✔️ BiLSTM-CRF vs BiLSTM-CNN-CRF 비교

✔️ BiLSTM-CRF vs BiLSTM-CNN-CRF 논문의 목적 비교

44일차 딥러닝7 기계번역

45일차 딥러닝 8 Attention Mechanism

0개의 댓글