BERT, SBERT, BART, T5 간단 설명

이진우·2024년 11월 3일

1. BERT란?

BERT(Bidirectional Encoder Representations from Transformers)는 구글이 2018년에 발표한 NLP 모델로, 양방향 Transformer 인코더 구조를 기반으로 함. 이 모델의 핵심 아이디어는 문장을 왼쪽에서 오른쪽, 오른쪽에서 왼쪽으로 동시에 읽어내는 방식으로 양방향 문맥을 학습하는 것임. BERT는 두 가지 사전 학습 방법을 활용함:
• Masked Language Model(MLM): 입력 문장에서 일부 단어를 마스킹하고, 모델이 이를 예측하도록 학습함. 이 과정에서 양방향 문맥을 반영하여 단어의 의미를 학습함.
• Next Sentence Prediction(NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장의 다음 문장인지를 예측하게 하는 학습 방식임. 이를 통해 문장 간 관계를 이해하도록 훈련됨.
이 두 가지 방식 덕분에 BERT는 문장 내에서 단어와 구문 간의 깊이 있는 관계를 파악할 수 있음. 감정 분석, 개체명 인식(NER), 질문 응답(QA)과 같은 작업에서 높은 성능을 보이며, 특히 문맥 이해가 중요한 작업에서 강점을 지님.

2. SBERT란?

SBERT(Sentence-BERT)는 BERT의 구조를 바탕으로 문장 임베딩을 효율적으로 생성하기 위해 만들어진 모델임. BERT는 문장 간 유사도를 계산하는 데 비효율적인데, 이를 해결하기 위해 SBERT는 샴 네트워크(Siamese Network) 구조를 도입함. 이 구조에서는 두 개의 BERT 모델이 동일한 가중치를 공유하며 각각의 문장을 인코딩함. 이 과정에서 얻어진 문장 벡터(임베딩)를 기반으로 코사인 유사도를 계산해 문장 간 유사성을 빠르게 측정함.
• SBERT의 사전 학습은 자연어 추론(NLI) 데이터셋을 사용함. NLI 데이터셋은 두 문장이 연관성을 가지는지, 모순되는지, 중립적인지를 라벨로 제공하여 문장 간 의미적 유사성을 학습하는 데 도움을 줌.
• SBERT는 질문 탐지, 문장 검색, 추천 시스템 등 대규모 문장 간 유사도를 빠르게 계산해야 하는 작업에 적합함. BERT에 비해 훨씬 빠르게 문장 유사도를 계산할 수 있고, 대규모 문서 집합에서 효율적으로 유사 문장을 찾을 수 있는 장점이 있음.

3. BERT와 SBERT의 차이점

• BERT: MLM과 NSP 방식으로 학습해 문맥을 깊이 이해하는 작업에 적합함. 주로 감정 분석, QA, NER과 같은 자연어 이해 작업에 사용됨.
• SBERT: BERT의 샴 네트워크 구조를 통해 문장 간 유사도 계산에 최적화됨. 특히 질문 탐지, 추천 시스템, 문장 클러스터링 등에서 더 효율적임.

4. BART란?

BART(Bidirectional and Auto-Regressive Transformers)는 페이스북 AI 연구팀이 2019년에 발표한 Transformer 기반 모델로, 인코더-디코더 구조를 채택함. 인코더는 입력 문장을 양방향으로 읽어 문맥을 이해하고, 디코더는 이를 기반으로 순차적으로 출력을 생성함. BART의 사전 학습 과정에서는 다양한 노이즈를 추가한 후, 원래 문장을 복원하는 방식으로 학습이 이루어짐.

• 텍스트 인필링(Text Infilling), 문장 순서 섞기(Sentence Permutation), 문장 회전(Document Rotation) 등의 다양한 노이즈 추가 기법을 통해 모델이 손상된 텍스트를 복원하도록 학습함.
• BART는 문장 완성, 요약, 데이터 복원과 같은 텍스트 생성 작업에서 뛰어난 성능을 보임. 특히 추상적 요약과 데이터 복원에서 우수한 결과를 보여, 문서 요약, 텍스트 생성과 같은 응용에 적합함.

5. T5란?

T5(Text-to-Text Transfer Transformer)는 구글이 2019년에 발표한 모델로, 모든 NLP 작업을 텍스트-투-텍스트 형식으로 통일하여 처리함. BART와 마찬가지로 인코더-디코더 구조를 채택하고 있지만, T5는 모든 작업을 입력과 출력이 텍스트 형태로 이루어지도록 재구성함.
• 예를 들어, 감정 분석을 “텍스트 분류” 작업으로, 요약을 “텍스트 요약” 작업으로 변환함. 모든 작업을 텍스트 형식으로 통합함으로써, 다양한 NLP 작업을 하나의 통일된 모델로 다룰 수 있게 설계됨.
• T5는 번역, 질문 응답, 요약 등 여러 작업에서 높은 성능을 보여주며, 특히 다중 작업을 학습하는 데 강점을 지님. 텍스트-투-텍스트 형식을 통해 다양한 작업을 통합하여 효율적으로 처리할 수 있음.

6. BART와 T5의 차이점

•	BART는 텍스트 생성과 데이터 복원에 최적화되어 있으며, 요약, 데이터 복원, 스토리 생성과 같은 작업에서 우수한 성능을 발휘함.
•	T5는 텍스트-투-텍스트 형식을 통해 다중 작업 학습을 가능하게 하고, 번역, 질문 응답, 요약 등 다양한 작업을 하나의 통일된 방식으로 다룰 수 있는 장점이 있음.

7. 각 모델의 사용 용도 요약

•	BERT: 감정 분석, 개체명 인식(NER), 질문 응답 등 문맥 이해가 필요한 작업에 활용.
•	SBERT: 질문 탐지, 문장 유사도 검색, 콘텐츠 추천 등 문장 간 유사도 계산이 필요한 작업에 적합.
•	BART: 텍스트 요약, 생성, 데이터 복원 등 생성 작업에 강점.
•	T5: 번역, 질문 응답, 요약 등 다양한 작업을 통합해 다중 작업 환경에서 활용.

요약 표

모델	특징	사용 예시	한계 및 적합 작업
BERT	양방향 문맥 이해 (Transformer 인코더 기반)	감정 분석, 개체명 인식, 질문 응답	문맥 이해에 뛰어남, 문장 유사도 계산에는 비효율적
SBERT	문장 간 유사도 계산에 최적화 (샴 네트워크 구조)	질문 탐지, 문장 검색, 추천 시스템	유사도 계산이 효율적, 저자원 언어에는 성능 제한 가능
BART	인코더-디코더 구조, 텍스트 생성/복원에 최적화	텍스트 요약, 생성, 데이터 복원	생성 작업에 최적화, 실시간 응답에는 부적합
T5	텍스트-투-텍스트 통합 프레임워크	번역, 질문 응답, 요약	다중 작업 학습에 강점, 특정 작업 특화 모델보다 성능 다소 낮을 수 있음

이진우

이전 포스트

Docker의 기본 개념 정리

다음 포스트