Pre-trained model

Youngho LEE·2025년 8월 24일

계열/구조	대표 모델	핵심 아이디어·특징	강점/주요 용도	메모
Encoder-only	RoBERTa	BERT 레시피 개선(대용량·동적 마스킹·NSP 제거)	분류/NER/추출형 QA	“잘 학습한 BERT”
"	ALBERT	파라미터 공유 + 임베딩 분해	경량·저장공간 효율	대규모 학습 효율↑
"	ELECTRA	Replaced Token Detection (가짜/진짜 판별)	표본 효율↑, 소형에 강	빠른 수렴
"	DeBERTa v3	컨텐츠/포지션 분리 어텐션 + 상대 위치	NLU SOTA급	v3는 ELECTRA식 목표 결합
"	XLNet	Permuted LM + 상대 위치	문맥 모델링 강	AR·AE 장점 혼합
"	XLM-R	100+ 언어 대규모 다국어 RoBERTa	다국어 분류/NER	mBERT 대비 성능↑
"	Distil/Mobile/TinyBERT	증류·경량화	온디바이스/저지연	속도–성능 균형
Seq2Seq	T5 / mT5 / FLAN-T5	Text-to-Text, span corruption;FLAN: Instruction Tuning	요약·번역·QA 생성	통합 인터페이스
"	BART	Denoising AE(인코더) + AR 디코더	요약·문서 생성	복원 프레임
"	UL2	AR/AE 혼합 Mixture-of-Denoisers	범용성·롱폼	다양한 프롬프트 모드
"	Decoder-only LLM	GPT-3/4 계열	대규모 AR + RLHF/툴호출	범용 생성·추론·에이전트
"	LLaMA 시리즈	공개 가중치, RoPE·GQA 등 현대화	오픈 생태 표준	Instruct 다양
"	Mistral / Mixtral(MoE)	효율적 어텐션, Sparse MoE	속도/비용 대비 성능	8×7B 등
"	Qwen / Gemma / Phi-3	다국어·코딩 최적·소형 고품질	챗·코딩·온디바이스	3–14B 라인업
멀티모달(VLM)	Flamingo / PaLI / Kosmos / LLaVA / IDEFICS / Qwen-VL / GPT-4o	비전 인코더 + LLM 브리지	캡션·VQA·문서 이해	OCR/툴 결합 권장
"	롱컨텍스트/효율	Longformer / BigBird / Transformer-XL / Reformer / Performer	슬라이딩/희소/커널 어텐션	32k~수백k 토큰
코드 특화	CodeBERT/CodeT5 / StarCoder2 / CodeLlama	코드+주석 사전학습	코드 완성/변환/리팩터	테스트 생성과 궁합
도메인 특화	SciBERT / BioBERT / ClinicalBERT	논문·의료 코퍼스	도메인 NLU	용어·규정 강

개발자

이전 포스트

Hugging Face Transformers

다음 포스트

LLM Hallucination

0개의 댓글