최근 NLP 분야에서 self-supervised 학습 방식이 큰 주목을 받고 있음.
특히 마스킹 언어 모델(Masked Language Model, MLM)이 많이 사용되고 있음.
이 방식은 입력 문장에서 일부 단어를 마스킹하고 이를 복원하도록 학습하는 구조로, BERT와 같은 모델이 대표적임.
하지만 기존 MLM 모델들은 특정 작업(span prediction, generation 등)에만 특화되어 있어 범용성에 한계가 있었음.

이 논문에서는 BART라는 새로운 사전학습 프레임워크를 제안함.
→ BART는 Bidirectional 인코더(BERT처럼)와 Autoregressive 디코더(GPT처럼)를 결합한 Transformer 기반 sequence-to-sequence 모델임.
→ 기존 마스킹 방식보다 더 자유로운 텍스트 변형이 가능하며, 문장의 구조나 길이를 바꾸는 것도 허용함.
특히 성능이 좋았던 노이즈 방식:
또한, BART를 기계번역에 활용할 수 있는 새로운 파인튜닝 방식도 제안 → 기존 백트랜슬레이션 기법보다 BLEU 점수 1.1 향상
➡️ 결론적으로, BART는 다양한 태스크에 폭넓게 활용 가능한 범용 사전학습 모델임.
BART는 Denoising Autoencoder 구조를 따르는 모델로,
손상된 문서(corrupted document)를 원래 문서(original document)로 복원하는 것을 목표로 함.
구조적으로는 Sequence-to-Sequence 형태
- 인코더: BERT처럼 양방향(bidirectional)으로 손상된 입력 인코딩
- 디코더: GPT처럼 왼쪽에서 오른쪽(left-to-right)으로 원문 생성
사전학습 단계에서는 원래 문서를 예측하는 확률의 음의 로그 우도(Negative Log Likelihood)를 최소화하는 방식으로 학습함
➡️ 즉, 손상된 입력을 보고 원래의 텍스트를 얼마나 잘 복원하는지를 기준으로 모델을 학습시킴
BART는 Vaswani et al. (2017)의 표준 Transformer 기반의 sequence-to-sequence 구조를 사용함.
[모델 구성]
Base 모델: 인코더와 디코더 각각 6층
Large 모델: 인코더와 디코더 각각 12층
[BERT와의 차이점]
→ 전체적으로, 동일 크기의 BERT 모델보다 파라미터 수가 약 10% 더 많음
➡️ BART는 BERT의 인코더 구조를 계승하면서도 GPT식 디코더와 sequence-to-sequence 설계를 접목한 형태임.
BART는 문서를 인위적으로 손상(corrupt)시키고, 이를 복원하는 과정을 통해 학습함.
→ 구체적으로는 디코더의 출력과 원래 문서 간의 cross-entropy loss를 최소화함.

기존 denoising autoencoder들은 특정 노이즈 방식에 최적화되어 있었던 반면,
BART는 다양한 손상 방식(document corruption)에 유연하게 대응 가능함.
pre-training 후, 다양한 다운스트림 작업에 맞게 fine-tunig 할 수 있음.
문장 분류 작업(sequence classification)에서는

BERT의 [CLS] 토큰 방식과 유사하지만, BART는 입력 끝에 별도의 토큰을 추가하여,
디코더가 전체 입력 시퀀스를 참조한 후 최종 표현을 생성할 수 있도록 설계됨
➡️ 문장의 전체 정보를 고려한 분류가 가능해짐
토큰 단위 분류 작업(ex. SQuAD의 정답 토큰 위치 예측)에서는
→ 이 표현을 기반으로 각 토큰이 정답인지 여부를 분류
➡️ BART는 디코더의 출력을 통해 각 토큰에 대해 정교한 분류 가능.
기계번역(MT) 작업, 특히 영어로의 번역에서도 효과적으로 활용 가능함.
기존 연구(Edunov et al., 2019)에서는 사전학습된 인코더의 활용은 성능 향상을 가져왔지만,
디코더에 사전학습 언어 모델을 사용하는 것은 큰 성과를 내지 못했음.
BART의 접근 방식
: BART 전체(인코더 + 디코더)를 하나의 사전학습된 디코더처럼 사용
이를 위해 새로운 인코더를 추가로 도입하고, 이 인코더는 외국어 입력을 BART가 처리할 수 있는 형태로 변환하도록 학습됨
→ BART는 영어 생성(디코딩)에 집중하고,
새로 학습된 인코더는 외국어 입력을 BART가 이해할 수 있도록 맵핑.
학습 방식
:
새로운 인코더는 BART와는 다른 vocabulary도 사용할 수 있음

➡️ 기존 back-translation 기반 기법보다 BLEU 향상을 보임
BART는 기존 사전학습 방식들보다 훨씬 다양한 노이즈 변형 방식(noising schemes)을 지원함.
최근 제안된 다양한 사전학습 방식들을 같은 조건 하에서 재구현하여 비교
Language Model (GPT 방식)
Permuted Language Model (XLNet 기반)
Masked Language Model (BERT 방식)
Multitask Masked Language Model (UniLM 방식)
Masked Seq-to-Seq (MASS 기반)
사전학습 objective들을 비교하기 위해 다양한 다운스트림 태스크에서 성능을 평가함.
SQuAD (Rajpurkar et al., 2016)
MNLI (Williams et al., 2017)
ELI5 (Fan et al., 2019)
XSum (Narayan et al., 2018)
ConvAI2 (Dinan et al., 2019)
CNN/DM (Hermann et al., 2015)

사전학습 성능은 Task에 따라 크게 달라짐
Token masking 또는 deletion이 핵심 역할
: 단순 문장 순서 섞기(permutation)나 문서 회전(rotation)만 적용한 모델은 성능이 낮음
- 효과적인 방식: 토큰 마스킹(masking)&토큰 삭제(deletion)&self-attention mask 활용
좌→우 pre-training이 생성 작업에 유리
MLM(BERT)이나 Permuted LM(XLNet)은
autogressive (좌→우) 생성 방식이 없어서 생성 성능이 낮음
양방향 인코더는 SQuAD 같은 분류 태스크에서 필수
- SQuAD는 미래 문맥을 활용해야 하는 분류 태스크이기 때문에, 단방향 디코더만으로는 성능이 낮음
- BART는 절반 수준의 양방향 레이어만 사용해도 높은 성능을 유지
사전학습 objective 외에도 모델 설계 요소가 중요
+ ELI5는 특이 케이스
Perplexity가 압도적으로 높음
BART의 대규모 학습 성능을 테스트하고, 범용적으로 사용할 수 있는 모델을 만들기 위해 RoBERTa와 동일한 스케일로 BART를 학습.
BART는 대규모 학습 환경에서도 분류와 생성 작업 모두에서 강력한 성능을 보이며,
특히 추상적 생성 태스크(요약, 대화, QA)에서 기존 모델을 능가하는 성능 달성.