Pre-trained model

Youngho LEE·2025년 8월 24일
계열/구조대표 모델핵심 아이디어·특징강점/주요 용도메모
Encoder-onlyRoBERTaBERT 레시피 개선(대용량·동적 마스킹·NSP 제거)분류/NER/추출형 QA“잘 학습한 BERT”
"ALBERT파라미터 공유 + 임베딩 분해경량·저장공간 효율대규모 학습 효율↑
"ELECTRAReplaced Token Detection (가짜/진짜 판별)표본 효율↑, 소형에 강빠른 수렴
"DeBERTa v3컨텐츠/포지션 분리 어텐션 + 상대 위치NLU SOTA급v3는 ELECTRA식 목표 결합
"XLNetPermuted LM + 상대 위치문맥 모델링 강AR·AE 장점 혼합
"XLM-R100+ 언어 대규모 다국어 RoBERTa다국어 분류/NERmBERT 대비 성능↑
"Distil/Mobile/TinyBERT증류·경량화온디바이스/저지연속도–성능 균형
Seq2SeqT5 / mT5 / FLAN-T5Text-to-Text, span corruption;FLAN: Instruction Tuning요약·번역·QA 생성통합 인터페이스
"BARTDenoising AE(인코더) + AR 디코더요약·문서 생성복원 프레임
"UL2AR/AE 혼합 Mixture-of-Denoisers범용성·롱폼다양한 프롬프트 모드
"Decoder-only LLMGPT-3/4 계열대규모 AR + RLHF/툴호출범용 생성·추론·에이전트
"LLaMA 시리즈공개 가중치, RoPE·GQA 등 현대화오픈 생태 표준Instruct 다양
"Mistral / Mixtral(MoE)효율적 어텐션, Sparse MoE속도/비용 대비 성능8×7B 등
"Qwen / Gemma / Phi-3다국어·코딩 최적·소형 고품질챗·코딩·온디바이스3–14B 라인업
멀티모달(VLM)Flamingo / PaLI / Kosmos / LLaVA / IDEFICS / Qwen-VL / GPT-4o비전 인코더 + LLM 브리지캡션·VQA·문서 이해OCR/툴 결합 권장
"롱컨텍스트/효율Longformer / BigBird / Transformer-XL / Reformer / Performer슬라이딩/희소/커널 어텐션32k~수백k 토큰
코드 특화CodeBERT/CodeT5 / StarCoder2 / CodeLlama코드+주석 사전학습코드 완성/변환/리팩터테스트 생성과 궁합
도메인 특화SciBERT / BioBERT / ClinicalBERT논문·의료 코퍼스도메인 NLU용어·규정 강

profile
개발자

0개의 댓글