| Encoder-only | RoBERTa | BERT 레시피 개선(대용량·동적 마스킹·NSP 제거) | 분류/NER/추출형 QA | “잘 학습한 BERT” |
| " | ALBERT | 파라미터 공유 + 임베딩 분해 | 경량·저장공간 효율 | 대규모 학습 효율↑ |
| " | ELECTRA | Replaced Token Detection (가짜/진짜 판별) | 표본 효율↑, 소형에 강 | 빠른 수렴 |
| " | DeBERTa v3 | 컨텐츠/포지션 분리 어텐션 + 상대 위치 | NLU SOTA급 | v3는 ELECTRA식 목표 결합 |
| " | XLNet | Permuted LM + 상대 위치 | 문맥 모델링 강 | AR·AE 장점 혼합 |
| " | XLM-R | 100+ 언어 대규모 다국어 RoBERTa | 다국어 분류/NER | mBERT 대비 성능↑ |
| " | Distil/Mobile/TinyBERT | 증류·경량화 | 온디바이스/저지연 | 속도–성능 균형 |
| Seq2Seq | T5 / mT5 / FLAN-T5 | Text-to-Text, span corruption;FLAN: Instruction Tuning | 요약·번역·QA 생성 | 통합 인터페이스 |
| " | BART | Denoising AE(인코더) + AR 디코더 | 요약·문서 생성 | 복원 프레임 |
| " | UL2 | AR/AE 혼합 Mixture-of-Denoisers | 범용성·롱폼 | 다양한 프롬프트 모드 |
| " | Decoder-only LLM | GPT-3/4 계열 | 대규모 AR + RLHF/툴호출 | 범용 생성·추론·에이전트 |
| " | LLaMA 시리즈 | 공개 가중치, RoPE·GQA 등 현대화 | 오픈 생태 표준 | Instruct 다양 |
| " | Mistral / Mixtral(MoE) | 효율적 어텐션, Sparse MoE | 속도/비용 대비 성능 | 8×7B 등 |
| " | Qwen / Gemma / Phi-3 | 다국어·코딩 최적·소형 고품질 | 챗·코딩·온디바이스 | 3–14B 라인업 |
| 멀티모달(VLM) | Flamingo / PaLI / Kosmos / LLaVA / IDEFICS / Qwen-VL / GPT-4o | 비전 인코더 + LLM 브리지 | 캡션·VQA·문서 이해 | OCR/툴 결합 권장 |
| " | 롱컨텍스트/효율 | Longformer / BigBird / Transformer-XL / Reformer / Performer | 슬라이딩/희소/커널 어텐션 | 32k~수백k 토큰 |
| 코드 특화 | CodeBERT/CodeT5 / StarCoder2 / CodeLlama | 코드+주석 사전학습 | 코드 완성/변환/리팩터 | 테스트 생성과 궁합 |
| 도메인 특화 | SciBERT / BioBERT / ClinicalBERT | 논문·의료 코퍼스 | 도메인 NLU | 용어·규정 강 |