RLHF의 단점을 극복한 DPO에 대한 간단한 정리 (+HuggingFace 구현 방법)
RLHF, DPO로 대표되던 Preference Alignment를 가능하게 하는 새로운 방식: ORPO

진화론적 최적화를 도입한 Sakana.ai의 모델 머징(합치기) 알아보기

언어모델의 인풋으로 사용되는 프롬프트를 어떻게 하면 효과적으로 압축할 수 있을까? 마이크로소프트에서 제시한 LLMLingua (LLMLingua, LongLLMLingua, LLMLingua-2)
ReAct Agent를 보완하기 위한 AutoGuide: Agent가 특정 도메인에서도 잘 작동하기 위해, 오프라인 데이터를 활용한 상태 인식 가이드라인을 만들고 활용하는 방법을 소개한 논문
거대 언어모델의 추론 및 행동 능력을 결합해 효율적으로 태스크를 해결하는 ReAct Agent 논문 소개
Scaling neural machine translation to 200 languages (Nature)

언어모델을 서빙할 때 이야기하는 Triton, REST API, gRPC는 대체 무엇일까?

아이디어 생성부터 실험 설계, 논문 작성, 평가까지 자동화되어 진행하는 The AI Scientist

구글의 최신 영상 생성 모델, Veo2 설명

Gemini 2.0, Gemini 1.5 Pro의 Deep Research 특징 정리 및 Gemini 2.0 간단 사용 후기

EXAONE 3.5 Technical Report 핵심 정리

Qwen2.5 Technical Report 내용 요약 (모델 종류, 학습 방법에 중점)

분산학습, 추론을 위한 parallelism 방식 소개: Data Parallelism, Tensor Parallelism, Pipeline Parallelism, Context Parallelism, Expert Parallelism

2025년 3월 공개된 Cohere의 111B 모델: Command A 요약정리

토큰 단위가 아닌, 시퀀스 단위로 중요도 샘플링 가중치를 활용하는 GSPO

다국어, 추론(Reasoning) 지원이 가능한 SmolLM3 모델 학습 방법 정리

모델의 Agentic 역량을 향상시키는 Context Engineering 기법 소개 논문 정리: Agentic Context Engineering