시리즈

up-to-date-ai

1.하나의 언어 모델을 보상 모델로도 활용하는 DPO (Direct Preference Optimization)

RLHF의 단점을 극복한 DPO에 대한 간단한 정리 (+HuggingFace 구현 방법)

2024년 3월 30일

2.추가적인 학습이나 모델이 필요하지 않은 새로운 Preference Alignment: ORPO

RLHF, DPO로 대표되던 Preference Alignment를 가능하게 하는 새로운 방식: ORPO

2024년 5월 17일

3.진화론적 최적화를 도입한 Sakana.ai의 모델 머징 방법론

진화론적 최적화를 도입한 Sakana.ai의 모델 머징(합치기) 알아보기

2024년 4월 2일

4.긴 프롬프트를 압축하는 세 가지 버전의 LLMLingua

언어모델의 인풋으로 사용되는 프롬프트를 어떻게 하면 효과적으로 압축할 수 있을까? 마이크로소프트에서 제시한 LLMLingua (LLMLingua, LongLLMLingua, LLMLingua-2)

2024년 4월 9일

5.AutoGuide: LLM을 활용한 Agent에게 더 좋은 가이드라인을 제공하는 법

ReAct Agent를 보완하기 위한 AutoGuide: Agent가 특정 도메인에서도 잘 작동하기 위해, 오프라인 데이터를 활용한 상태 인식 가이드라인을 만들고 활용하는 방법을 소개한 논문

2024년 6월 13일

6.ReAct: 언어모델의 추론과 행동 능력을 결합하기

거대 언어모델의 추론 및 행동 능력을 결합해 효율적으로 태스크를 해결하는 ReAct Agent 논문 소개

2024년 7월 8일

7.Nature에 실린 200개 다국어 지원 번역모델 논문 정리

Scaling neural machine translation to 200 languages (Nature)

2024년 8월 20일

8.언어모델 서빙 시 알면 좋은 개념들: Triton Inference Server, HTTP, Rest API, gRPC

언어모델을 서빙할 때 이야기하는 Triton, REST API, gRPC는 대체 무엇일까?

2024년 9월 15일

9.연구의 처음부터 끝까지 모두 수행하는 자동화된 The AI Scientist

아이디어 생성부터 실험 설계, 논문 작성, 평가까지 자동화되어 진행하는 The AI Scientist

2024년 9월 18일

10.구글 딥마인드의 새로운 영상 생성 모델: Veo 2

구글의 최신 영상 생성 모델, Veo2 설명

2024년 12월 24일

11.Gemini 2.0: 구글의 최신 공개 모델 특징 정리 및 실사용 후기

Gemini 2.0, Gemini 1.5 Pro의 Deep Research 특징 정리 및 Gemini 2.0 간단 사용 후기

2024년 12월 26일

12.EXAONE 3.5 Technical Report 핵심내용 정리

EXAONE 3.5 Technical Report 핵심 정리

2024년 12월 27일

13.Qwen2.5 Technical Report

Qwen2.5 Technical Report 내용 요약 (모델 종류, 학습 방법에 중점)

2025년 1월 7일

14.Parallelism 소개: Data, Pipeline, Tensor, Context, 그리고 Expert

분산학습, 추론을 위한 parallelism 방식 소개: Data Parallelism, Tensor Parallelism, Pipeline Parallelism, Context Parallelism, Expert Parallelism

2025년 4월 26일

15.Cohere의 Command A 모델 Technical Report 요약 정리

2025년 3월 공개된 Cohere의 111B 모델: Command A 요약정리

2025년 6월 2일

16.Qwen에서 발표한 GSPO (Group Sequence Policy Optimization) 정리

토큰 단위가 아닌, 시퀀스 단위로 중요도 샘플링 가중치를 활용하는 GSPO

2025년 8월 4일

17.SmolLM3: HuggingFace에서 발표한 다국어 및 긴 문맥을 지원하는 추론 가능한 오픈 3B 모델

다국어, 추론(Reasoning) 지원이 가능한 SmolLM3 모델 학습 방법 정리

2025년 10월 10일

18.모델의 Agent 역량을 향상시키는 Agentic Context Engineering

모델의 Agentic 역량을 향상시키는 Context Engineering 기법 소개 논문 정리: Agentic Context Engineering

2025년 10월 26일