RLHF의 단점을 극복한 DPO에 대한 간단한 정리 (+HuggingFace 구현 방법)
RLHF, DPO로 대표되던 Preference Alignment를 가능하게 하는 새로운 방식: ORPO
진화론적 최적화를 도입한 Sakana.ai의 모델 머징(합치기) 알아보기
언어모델의 인풋으로 사용되는 프롬프트를 어떻게 하면 효과적으로 압축할 수 있을까? 마이크로소프트에서 제시한 LLMLingua (LLMLingua, LongLLMLingua, LLMLingua-2)
ReAct Agent를 보완하기 위한 AutoGuide: Agent가 특정 도메인에서도 잘 작동하기 위해, 오프라인 데이터를 활용한 상태 인식 가이드라인을 만들고 활용하는 방법을 소개한 논문
거대 언어모델의 추론 및 행동 능력을 결합해 효율적으로 태스크를 해결하는 ReAct Agent 논문 소개
Scaling neural machine translation to 200 languages (Nature)
언어모델을 서빙할 때 이야기하는 Triton, REST API, gRPC는 대체 무엇일까?
아이디어 생성부터 실험 설계, 논문 작성, 평가까지 자동화되어 진행하는 The AI Scientist