BERT(Bidirectional Encoder Representations from Transformers)는 구글이 2018년에 발표한 NLP 모델로, 양방향 Transformer 인코더 구조를 기반으로 함. 이 모델의 핵심 아이디어는 문장을 왼쪽에서 오른쪽, 오른쪽에서 왼쪽으로 동시에 읽어내는 방식으로 양방향 문맥을 학습하는 것임. BERT는 두 가지 사전 학습 방법을 활용함:
• Masked Language Model(MLM): 입력 문장에서 일부 단어를 마스킹하고, 모델이 이를 예측하도록 학습함. 이 과정에서 양방향 문맥을 반영하여 단어의 의미를 학습함.
• Next Sentence Prediction(NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장의 다음 문장인지를 예측하게 하는 학습 방식임. 이를 통해 문장 간 관계를 이해하도록 훈련됨.
이 두 가지 방식 덕분에 BERT는 문장 내에서 단어와 구문 간의 깊이 있는 관계를 파악할 수 있음. 감정 분석, 개체명 인식(NER), 질문 응답(QA)과 같은 작업에서 높은 성능을 보이며, 특히 문맥 이해가 중요한 작업에서 강점을 지님.
SBERT(Sentence-BERT)는 BERT의 구조를 바탕으로 문장 임베딩을 효율적으로 생성하기 위해 만들어진 모델임. BERT는 문장 간 유사도를 계산하는 데 비효율적인데, 이를 해결하기 위해 SBERT는 샴 네트워크(Siamese Network) 구조를 도입함. 이 구조에서는 두 개의 BERT 모델이 동일한 가중치를 공유하며 각각의 문장을 인코딩함. 이 과정에서 얻어진 문장 벡터(임베딩)를 기반으로 코사인 유사도를 계산해 문장 간 유사성을 빠르게 측정함.
• SBERT의 사전 학습은 자연어 추론(NLI) 데이터셋을 사용함. NLI 데이터셋은 두 문장이 연관성을 가지는지, 모순되는지, 중립적인지를 라벨로 제공하여 문장 간 의미적 유사성을 학습하는 데 도움을 줌.
• SBERT는 질문 탐지, 문장 검색, 추천 시스템 등 대규모 문장 간 유사도를 빠르게 계산해야 하는 작업에 적합함. BERT에 비해 훨씬 빠르게 문장 유사도를 계산할 수 있고, 대규모 문서 집합에서 효율적으로 유사 문장을 찾을 수 있는 장점이 있음.
• BERT: MLM과 NSP 방식으로 학습해 문맥을 깊이 이해하는 작업에 적합함. 주로 감정 분석, QA, NER과 같은 자연어 이해 작업에 사용됨.
• SBERT: BERT의 샴 네트워크 구조를 통해 문장 간 유사도 계산에 최적화됨. 특히 질문 탐지, 추천 시스템, 문장 클러스터링 등에서 더 효율적임.
BART(Bidirectional and Auto-Regressive Transformers)는 페이스북 AI 연구팀이 2019년에 발표한 Transformer 기반 모델로, 인코더-디코더 구조를 채택함. 인코더는 입력 문장을 양방향으로 읽어 문맥을 이해하고, 디코더는 이를 기반으로 순차적으로 출력을 생성함. BART의 사전 학습 과정에서는 다양한 노이즈를 추가한 후, 원래 문장을 복원하는 방식으로 학습이 이루어짐.
• 텍스트 인필링(Text Infilling), 문장 순서 섞기(Sentence Permutation), 문장 회전(Document Rotation) 등의 다양한 노이즈 추가 기법을 통해 모델이 손상된 텍스트를 복원하도록 학습함.
• BART는 문장 완성, 요약, 데이터 복원과 같은 텍스트 생성 작업에서 뛰어난 성능을 보임. 특히 추상적 요약과 데이터 복원에서 우수한 결과를 보여, 문서 요약, 텍스트 생성과 같은 응용에 적합함.
T5(Text-to-Text Transfer Transformer)는 구글이 2019년에 발표한 모델로, 모든 NLP 작업을 텍스트-투-텍스트 형식으로 통일하여 처리함. BART와 마찬가지로 인코더-디코더 구조를 채택하고 있지만, T5는 모든 작업을 입력과 출력이 텍스트 형태로 이루어지도록 재구성함.
• 예를 들어, 감정 분석을 “텍스트 분류” 작업으로, 요약을 “텍스트 요약” 작업으로 변환함. 모든 작업을 텍스트 형식으로 통합함으로써, 다양한 NLP 작업을 하나의 통일된 모델로 다룰 수 있게 설계됨.
• T5는 번역, 질문 응답, 요약 등 여러 작업에서 높은 성능을 보여주며, 특히 다중 작업을 학습하는 데 강점을 지님. 텍스트-투-텍스트 형식을 통해 다양한 작업을 통합하여 효율적으로 처리할 수 있음.
• BART는 텍스트 생성과 데이터 복원에 최적화되어 있으며, 요약, 데이터 복원, 스토리 생성과 같은 작업에서 우수한 성능을 발휘함.
• T5는 텍스트-투-텍스트 형식을 통해 다중 작업 학습을 가능하게 하고, 번역, 질문 응답, 요약 등 다양한 작업을 하나의 통일된 방식으로 다룰 수 있는 장점이 있음.
• BERT: 감정 분석, 개체명 인식(NER), 질문 응답 등 문맥 이해가 필요한 작업에 활용.
• SBERT: 질문 탐지, 문장 유사도 검색, 콘텐츠 추천 등 문장 간 유사도 계산이 필요한 작업에 적합.
• BART: 텍스트 요약, 생성, 데이터 복원 등 생성 작업에 강점.
• T5: 번역, 질문 응답, 요약 등 다양한 작업을 통합해 다중 작업 환경에서 활용.
요약 표
| 모델 | 특징 | 사용 예시 | 한계 및 적합 작업 |
|---|---|---|---|
| BERT | 양방향 문맥 이해 (Transformer 인코더 기반) | 감정 분석, 개체명 인식, 질문 응답 | 문맥 이해에 뛰어남, 문장 유사도 계산에는 비효율적 |
| SBERT | 문장 간 유사도 계산에 최적화 (샴 네트워크 구조) | 질문 탐지, 문장 검색, 추천 시스템 | 유사도 계산이 효율적, 저자원 언어에는 성능 제한 가능 |
| BART | 인코더-디코더 구조, 텍스트 생성/복원에 최적화 | 텍스트 요약, 생성, 데이터 복원 | 생성 작업에 최적화, 실시간 응답에는 부적합 |
| T5 | 텍스트-투-텍스트 통합 프레임워크 | 번역, 질문 응답, 요약 | 다중 작업 학습에 강점, 특정 작업 특화 모델보다 성능 다소 낮을 수 있음 |