[2025/W04] 🤗 Weekly AI Research

Sky·2025년 1월 25일

Weekly AI Research Digest

목록 보기

4/89

2025년 4주차에 공개된 주목할만한 AI 분야의 논문들을 소개합니다.

추론 및 최적화 기술 분야

Evolving Deeper LLM Thinking

이 연구는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 'Mind Evolution'이라는 새로운 방법을 제안합니다. 기존의 단순한 여러 번 시도하기(Best-of-N)나 순차적 수정(Sequential Revision) 방식 대신, 진화 알고리즘의 개념을 활용하여 언어 모델이 답변을 생성하고, 이를 조합하고 개선하는 과정을 반복합니다. 특히 여행 계획이나 일반적인 계획 수립과 같은 문제에서 Gemini 1.5 Pro를 사용했을 때 98% 이상의 높은 성공률을 보여, 복잡한 문제 해결에 효과적임을 입증했습니다.

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper, Project

Agent-R는 언어 모델 기반 AI 에이전트가 자신의 실수를 스스로 인식하고 수정할 수 있도록 하는 자가 학습 프레임워크입니다. 기존의 방식이 단순히 정답과 오답을 구분하여 보상하는 것과 달리, Agent-R는 몬테카를로 트리 탐색(MCTS)을 활용하여 잘못된 경로에서 올바른 경로로 복구하는 방법을 학습합니다. 특히 에이전트가 실행 도중에 즉시 오류를 발견하고 수정할 수 있도록, 현재 상태에서 가장 가까운 올바른 경로를 찾아 학습하는 방식을 도입했습니다. 실험 결과 이 방식은 기존 방법들보다 5.59% 더 나은 성능을 보여주었습니다.

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper, Project

TPO(Test-time Preference Optimization)는 대규모 언어 모델(LLM)이 추가 학습 없이도 실행 중에 사용자의 선호도에 맞게 출력을 조정할 수 있게 하는 새로운 프레임워크입니다. 기존의 수치적 보상 대신 텍스트 형태의 피드백을 활용하여 모델의 응답을 반복적으로 개선하는 방식을 채택했습니다. 실험 결과, 지시사항 따르기, 선호도 조정, 안전성, 수학 등 다양한 분야에서 효과적인 성능 향상을 보여주었으며, 특히 몇 번의 TPO 단계만으로도 기존에 조정되지 않은 모델이 조정된 모델의 성능을 뛰어넘을 수 있음을 입증했습니다.

시각 인공지능 분야

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper, Project

MMVU는 AI 모델의 전문가 수준 동영상 이해 능력을 평가하기 위한 새로운 벤치마크입니다. 과학, 의료, 인문사회과학, 공학 등 27개 전문 분야에 걸쳐 3,000개의 전문가가 작성한 질문들로 구성되어 있습니다. 기존의 벤치마크들이 단순한 시각적 인식에 초점을 맞췄던 것과 달리, MMVU는 전문 분야의 지식을 적용하고 전문가 수준의 추론을 요구합니다. 최신 AI 모델들을 대상으로 한 평가에서 가장 뛰어난 성능을 보인 모델들조차 인간 전문가의 수준에는 미치지 못했으며, 이는 전문 분야의 동영상 이해에 있어 AI가 더 발전해야 할 여지가 있음을 보여줍니다.

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper, Project

VideoLLaMA3는 이미지와 비디오를 더 잘 이해하기 위한 새로운 AI 모델로, '시각 중심' 접근방식을 핵심으로 합니다. 이 모델은 대규모 비디오-텍스트 데이터셋 대신 고품질의 이미지-텍스트 데이터셋을 중심으로 훈련되며, 4단계 훈련 과정(시각 정렬, 시각-언어 사전학습, 다중작업 미세조정, 비디오 중심 미세조정)을 거칩니다. 특히 이미지의 세밀한 특징을 더 잘 포착하기 위해 이미지 크기에 따라 가변적인 수의 시각 토큰을 생성하고, 비디오의 경우 유사한 토큰들을 줄여서 더 정확하고 압축된 표현을 만듭니다. 이러한 시각 중심 설계 덕분에 이미지와 비디오 이해 벤치마크에서 우수한 성능을 보여주었습니다.

TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space

Paper, Project

TokenVerse는 하나의 이미지만으로도 복잡한 시각적 요소와 특성을 분리해내고, 여러 이미지에서 추출한 개념들을 자유롭게 조합하여 새로운 이미지를 생성할 수 있는 방법을 제시합니다. 기존의 텍스트-이미지 변환 모델에서 텍스트가 주의(attention)와 변조(modulation)를 통해 이미지 생성에 영향을 미친다는 점에 착안하여, 변조 공간에서 각 단어에 해당하는 고유한 방향을 찾아내는 최적화 기반 프레임워크를 개발했습니다. 이를 통해 물체, 액세서리, 재질, 포즈, 조명 등 다양한 개념들을 원하는 대로 조합하여 새로운 이미지를 생성할 수 있으며, 기존 방법들보다 더 효과적인 성능을 보여줍니다.

GameFactory: Creating New Games with Generative Interactive Videos

Paper, Project

GameFactory는 새로운 게임 콘텐츠를 자동으로 생성하는 AI 기반 프레임워크입니다. 기존의 게임 생성 방식과 달리, 사전 학습된 비디오 확산 모델을 활용하여 다양한 스타일과 장면의 게임을 만들 수 있습니다. 특히 게임 스타일 학습과 동작 제어를 분리하는 다단계 학습 전략을 도입하여, 오픈 도메인의 다양성을 유지하면서도 사용자의 액션에 반응하는 상호작용이 가능한 게임 영상을 생성할 수 있습니다. 마인크래프트를 기반으로 한 데이터셋(GF-Minecraft)을 통해 무한한 길이의 게임 영상 생성이 가능함을 보여주었습니다.

다중 에이전트 시스템 분야

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Paper, Project

FilmAgent는 가상 3D 공간에서 영화 제작을 자동화하는 AI 기반 다중 에이전트 프레임워크입니다. 감독, 시나리오 작가, 배우, 촬영감독 등 다양한 영화 제작진의 역할을 시뮬레이션하며, 아이디어 개발부터 대본 작성, 촬영까지 영화 제작의 전 과정을 다룹니다. 여러 AI 에이전트들이 서로 피드백을 주고받으며 협업하는 방식으로, 중간 단계의 대본을 검증하고 오류를 줄입니다. 실험 결과, FilmAgent는 단일 에이전트 시스템보다 우수한 성능을 보여주었으며, 인간 평가에서도 5점 만점에 평균 3.98점을 받아 영화 제작에서 다중 에이전트 협업의 가능성을 입증했습니다.

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Paper, Project

SRMT(Shared Recurrent Memory Transformer)는 다중 에이전트 강화학습(MARL)에서 에이전트들 간의 협력을 개선하기 위한 새로운 방법을 제시합니다. 기존 방식과 달리, 각 에이전트의 작업 메모리를 통합하고 전체적으로 공유함으로써 에이전트들이 암묵적으로 정보를 교환하고 행동을 조율할 수 있게 합니다. 좁은 통로를 통과해야 하는 병목 네비게이션 과제와 POGEMA 벤치마크에서의 실험 결과, SRMT는 기존의 강화학습 방식들보다 우수한 성능을 보여주었으며, 특히 학습 때 보지 못한 더 긴 통로에서도 효과적으로 작동했습니다. 이는 공유 순환 메모리를 transformer 기반 구조에 통합하는 것이 분산된 다중 에이전트 시스템의 협력을 향상시킬 수 있음을 보여줍니다.

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Paper, Project

UI-TARS는 화면 캡처만을 입력으로 받아 키보드와 마우스 조작 같은 인간다운 상호작용을 수행하는 새로운 GUI 에이전트 모델입니다. GPT-4 같은 상업용 모델에 의존하는 기존 방식과 달리, UI-TARS는 독자적인 end-to-end 모델로서 더 우수한 성능을 보여줍니다. 이는 네 가지 핵심 혁신에 기반합니다: 1) 대규모 GUI 스크린샷 데이터를 활용한 향상된 인식 능력, 2) 다양한 플랫폼에서의 행동을 통합적으로 모델링하는 방식, 3) 작업 분해와 반성적 사고를 포함하는 체계적 추론 능력, 4) 수백 대의 가상 머신에서 자동으로 상호작용 데이터를 수집하고 개선하는 반복 학습 방식입니다. 실험 결과 AndroidWorld와 OSWorld 등 여러 벤치마크에서 기존 최고 성능을 뛰어넘는 결과를 달성했습니다.

강화학습 분야

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper, Project

DeepSeek-R1은 대규모 강화학습을 통해 개발된 새로운 언어 모델입니다. 먼저 개발된 DeepSeek-R1-Zero는 지도학습 없이 순수하게 강화학습만으로 훈련되어 뛰어난 추론 능력을 보여주었지만, 가독성이 떨어지고 언어가 혼합되는 등의 문제가 있었습니다. 이를 해결하기 위해 개발된 DeepSeek-R1은 다단계 훈련과 사전 데이터를 활용하여 OpenAI의 최신 모델과 비슷한 수준의 추론 성능을 달성했습니다. 연구 커뮤니티를 위해 두 모델과 함께, 이를 기반으로 만든 6개의 다양한 크기(1.5B~70B)의 경량화 모델들도 오픈소스로 공개되었습니다.

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper, Project

Kimi k1.5는 강화학습(RL)을 활용한 새로운 다중 모달 언어 모델입니다. 기존의 언어 모델들이 다음 토큰을 예측하는 방식으로 학습하는 것과 달리, Kimi k1.5는 강화학습을 통해 보상을 기반으로 스스로 탐색하고 학습합니다. 특히 긴 맥락 처리 능력과 개선된 정책 최적화 방법을 핵심으로 하며, 복잡한 기술 없이도 간단하고 효과적인 강화학습 프레임워크를 구축했습니다. 그 결과 수학(AIME, MATH 500), 코딩(Codeforces), 시각적 수학 문제(MathVista) 등 다양한 분야에서 최고 수준의 성능을 달성했으며, 특히 짧은 사고 과정(short-CoT)에서 GPT-4나 Claude보다 최대 550% 더 나은 성능을 보여주었습니다.

모델 구조 최적화 분야

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Paper

이 연구는 Mixture-of-Experts(MoE) 모델의 부하 균형 손실(Load-balancing Loss, LBL) 구현 방식을 개선한 내용을 다룹니다. 기존의 방식은 작은 배치(micro-batch) 단위로 LBL을 계산하다 보니, 각 시퀀스 내에서 토큰들을 모든 전문가에게 균등하게 분배하려는 경향이 있었고, 이는 전문가의 특화를 방해했습니다. 이를 해결하기 위해 연구진은 더 큰 전체 배치(global-batch) 단위로 LBL을 계산하는 방식을 제안했습니다. 이 방식은 더 다양한 시퀀스를 포함하므로 코퍼스 수준에서의 부하 균형을 달성하면서도 각 전문가의 도메인 특화를 가능하게 했고, 실험 결과 사전 학습 성능과 다운스트림 태스크 모두에서 향상된 결과를 보여주었습니다.

Sky

XR과 AI에 관심이 많은 Sky 입니다.

이전 포스트

[2025/W03] 🤗 Weekly AI Research

다음 포스트

[2025/W04] 🤗 Weekly AI Research

Weekly AI Research Digest

추론 및 최적화 기술 분야

Evolving Deeper LLM Thinking

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

시각 인공지능 분야

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space

GameFactory: Creating New Games with Generative Interactive Videos

다중 에이전트 시스템 분야

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

강화학습 분야

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Kimi k1.5: Scaling Reinforcement Learning with LLMs

모델 구조 최적화 분야

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

[2025/W03] 🤗 Weekly AI Research

[2025/W05] 🤗 Weekly AI Research

0개의 댓글