RLHF의 단점을 극복한 DPO에 대한 간단한 정리 (+HuggingFace 구현 방법)
RLHF, DPO로 대표되던 Preference Alignment를 가능하게 하는 새로운 방식: ORPO
진화론적 최적화를 도입한 Sakana.ai의 모델 머징(합치기) 알아보기
언어모델의 인풋으로 사용되는 프롬프트를 어떻게 하면 효과적으로 압축할 수 있을까? 마이크로소프트에서 제시한 LLMLingua (LLMLingua, LongLLMLingua, LLMLingua-2)
ReAct Agent를 보완하기 위한 AutoGuide: Agent가 특정 도메인에서도 잘 작동하기 위해, 오프라인 데이터를 활용한 상태 인식 가이드라인을 만들고 활용하는 방법을 소개한 논문
거대 언어모델의 추론 및 행동 능력을 결합해 효율적으로 태스크를 해결하는 ReAct Agent 논문 소개
Scaling neural machine translation to 200 languages (Nature)
언어모델을 서빙할 때 이야기하는 Triton, REST API, gRPC는 대체 무엇일까?
아이디어 생성부터 실험 설계, 논문 작성, 평가까지 자동화되어 진행하는 The AI Scientist
구글의 최신 영상 생성 모델, Veo2 설명
Gemini 2.0, Gemini 1.5 Pro의 Deep Research 특징 정리 및 Gemini 2.0 간단 사용 후기
EXAONE 3.5 Technical Report 핵심 정리
Qwen2.5 Technical Report 내용 요약 (모델 종류, 학습 방법에 중점)