[2025/W14] 🤗 Weekly AI Research

Sky·2025년 4월 5일

Weekly AI Research Digest

목록 보기

14/89

2025년 14주차에 공개된 주목할만한 AI 분야의 논문들을 소개합니다.

TL;DR

AI 에이전트 및 시스템 분야에서 Foundation Agents는 뇌과학에서 영감을 얻은 지능형 에이전트 설계를, AnimeGamer는 MLLM 기반 무한 애니메이션 시뮬레이션을 제안했습니다. NLP 분야에서 AdaptiVocab은 도메인 특화 어휘 적응을 통한 LLM 효율성 향상을, Open-Reasoner-Zero는 추론 능력 강화를 위한 오픈소스 RL 접근법을 개발했습니다. 컴퓨터 비전 분야에서 MergeVQ는 토큰 병합과 양자화를 통합하고, TextCrafter는 복잡한 시각적 텍스트 렌더링 문제를 해결합니다. 멀티모달 연구로 MoCha는 영화급 대화형 캐릭터 합성을, Any2Caption은 다양한 조건 해석을 통한 비디오 생성을, RISEBench는 추론 기반 시각적 편집 평가를, Visual-Spatial Reasoning은 R1-Zero 훈련 기법을 제시합니다. 컴퓨터 그래픽스 및 애니메이션 분야에서는 DreamActor-M1의 하이브리드 가이드 인간 애니메이션과 TokenHSI의 작업 토큰화 기반 인간-장면 상호작용 합성 방법을 제안했습니다.

AI 에이전트 및 시스템 분야

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper, Project

이 논문은 대형 언어 모델(LLM)의 발전이 인공지능에 가져온 변화와 지능형 에이전트 개발에 대해 포괄적으로 다루고 있습니다. 특히 뇌과학에서 영감을 받은 모듈식 아키텍처를 중심으로 지능형 에이전트를 설계하는 접근법을 제시하고 있습니다. 연구는 네 가지 핵심 영역으로 구성되어 있습니다. 첫째, 지능형 에이전트의 모듈식 기반을 인간 뇌 기능에 맵핑하여 기억, 세계 모델링, 보상 처리 및 감정 시스템을 포함한 핵심 구성 요소를 설명합니다. 둘째, 자가 개선 및 적응형 진화 메커니즘을 통해 에이전트가 자율적으로 능력을 향상시키는 방법을 탐구합니다. 셋째, 협력적 및 진화적 다중 에이전트 시스템에서 나타나는 집단 지능에 대해 논의합니다. 마지막으로, 안전하고 유익한 AI 시스템 구축의 중요성을 강조하여 실제 환경에서 신뢰할 수 있는 배포를 위한 보안 및 윤리적 정렬 전략을 제시합니다.

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Paper, Project

AnimeGamer는 다음 게임 상태 예측을 통한 무한 애니메이션 라이프 시뮬레이션을 제안합니다. 최근 이미지와 비디오 합성의 발전은 생성형 게임에 새로운 가능성을 열었으며, 특히 애니메이션 영화의 캐릭터를 상호작용 가능한 게임 캐릭터로 변환하는 응용이 주목받고 있습니다. 이를 통해 플레이어는 언어 지시를 통해 좋아하는 캐릭터로서 역동적인 애니메이션 세계에 몰입할 수 있습니다. 이 연구는 다중 모달 대형 언어 모델(MLLM)을 기반으로 각 게임 상태를 생성하는 AnimeGamer를 제안합니다. 캐릭터 움직임과 상태 업데이트를 묘사하는 동적 애니메이션 장면을 포함한 게임 상태를 생성합니다. 비디오 확산 모델을 사용하여 고품질 비디오 클립으로 디코딩할 수 있는 액션 인식 다중 모달 표현을 도입했으며, 역사적 애니메이션 장면 표현을 컨텍스트로 사용하여 후속 표현을 예측함으로써 맥락 일관성과 만족스러운 역동성을 가진 게임을 생성할 수 있습니다.

자연어 처리 분야

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Paper, Project

이 연구는 특정 도메인에 초점을 맞춘 대규모 언어 모델(LLM)의 효율성을 향상시키기 위한 AdaptiVocab이라는 접근법을 소개합니다. LLM은 범용 모델로서 인상적인 다재다능함을 보여주지만, 특히 자동 회귀 디코딩에서 각 단계마다 순방향 패스가 필요한 높은 계산 오버헤드가 있습니다. AdaptiVocab은 토크나이저와 아키텍처에 적용할 수 있는 어휘 적응을 위한 엔드투엔드 방식으로, 기존 토큰을 도메인 특화된 n-그램 기반 토큰으로 대체하여 입력 처리와 출력 생성에 필요한 토큰 수를 줄입니다. 이 접근법은 기존 임베딩의 지수 가중 조합을 사용하여 새로운 n-토큰 임베딩을 초기화하고, 단일 GPU에서 효율적으로 수행할 수 있는 경량 미세 조정 단계를 활용합니다. 세 가지 틈새 도메인에서 두 개의 7B LLM을 평가한 결과, AdaptiVocab은 성능을 손상시키지 않으면서도 토큰 사용량을 25% 이상 감소시키는 효과를 보여주었습니다.

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

Paper, Project

Open-Reasoner-Zero는 기본 모델에서 강화 학습을 확장하는 첫 번째 오픈 소스 구현으로, 확장성, 단순성, 접근성에 중점을 둔 대규모 추론 지향 RL 훈련을 소개합니다. 광범위한 실험을 통해, 바닐라 PPO와 GAE(lambda=1, gamma=1) 및 간단한 규칙 기반 보상을 사용하는 최소주의적 접근법이 KL 정규화 없이도 응답 길이와 벤치마크 성능을 향상시키는 데 충분하다는 것을 입증했습니다. DeepSeek-R1-Zero-Qwen-32B와 동일한 기본 모델을 사용하여, 이 구현은 DeepSeek-R1-Zero 파이프라인에 비해 훈련 단계의 10분의 1만 필요로 하면서도 AIME2024, MATH500 및 GPQA Diamond 벤치마크에서 우수한 성능을 달성했습니다. 오픈 소스 정신에 맞게 소스 코드, 파라미터 설정, 훈련 데이터 및 다양한 크기의 모델 가중치를 공개하였습니다.

컴퓨터 비전 분야

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Paper, Project

MergeVQ는 비전 생성과 표현을 위한 통합 프레임워크로서, 토큰 병합과 양자화를 분리하는 접근법을 제시합니다. 벡터 양자화(VQ)를 사용한 마스크 이미지 모델링(MIM)은 자기지도 사전 훈련과 이미지 생성 모두에서 큰 성공을 거두었지만, 기존 방법들은 생성 품질과 표현 학습, 효율성 사이의 균형을 맞추는 데 어려움을 겪었습니다. MergeVQ는 토큰 병합 기술을 VQ 기반 생성 모델에 통합하여 이 격차를 해소하고자 합니다. 사전 훈련 중에 MergeVQ는 인코더의 자기 주의 블록 이후 토큰 병합 모듈을 통해 Look-up Free Quantization(LFQ)과 글로벌 정렬을 위한 잠재 공간에서 상위 k 의미론을 분리하고, 디코더의 크로스 어텐션을 통해 복원을 위한 세부 정보를 복구합니다. 또한 제2단계 생성을 위해 효율적인 래스터 순서 예측을 위한 KV Cache 압축을 수행하는 MergeAR을 도입하여 토큰 효율성과 추론 속도를 유지하면서 시각적 표현 학습과 이미지 생성 작업 모두에서 경쟁력 있는 성능을 달성합니다.

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Paper, Project

이 논문은 복잡한 시각적 텍스트 생성(CVTG) 작업의 문제점을 해결하기 위한 TextCrafter라는 새로운 방법을 소개합니다. 기존 이미지 생성 모델들은 왜곡되고 흐릿한 시각적 텍스트를 렌더링하거나 일부 텍스트를 누락하는 경향이 있었습니다. TextCrafter는 복잡한 시각적 텍스트를 개별 구성 요소로 점진적으로 분해하면서 텍스트 내용과 시각적 매체 간의 강력한 정렬을 보장하는 전략을 채택합니다. 또한 생성 과정에서 시각적 텍스트의 중요성을 증폭시키는 토큰 포커스 강화 메커니즘을 도입하여 텍스트 혼란, 누락, 흐릿함과 같은 CVTG 작업의 주요 문제를 효과적으로 해결합니다. 연구팀은 CVTG-2K라는 새로운 벤치마크 데이터셋을 제시하여 생성 모델의 성능을 엄격하게 평가할 수 있게 하였으며, 광범위한 실험을 통해 이 방법이 최신 접근법을 능가함을 입증하였습니다.

멀티모달 분야

MoCha: Towards Movie-Grade Talking Character Synthesis

Paper, Project

MoCha는 영화급 대화형 캐릭터 합성을 위한 혁신적인 방법을 제시합니다. 최근 비디오 생성의 발전에도 불구하고 캐릭터 중심 스토리텔링은 간과되어 왔으나, 이 연구는 음성과 텍스트에서 직접 대화형 캐릭터 애니메이션을 생성하는 "Talking Characters"라는 보다 현실적인 작업을 소개합니다. 기존의 talking head와 달리, Talking Characters는 얼굴 영역을 넘어 한 명 이상 캐릭터의 전신 초상화 생성을 목표로 합니다. 비디오와 음성의 정확한 동기화를 위해 speech-video window attention 메커니즘을 제안하고, 대규모 음성 라벨링 비디오 데이터셋의 부족을 해결하기 위한 공동 훈련 전략을 도입했습니다. 또한 캐릭터 태그가 있는 구조화된 프롬프트 템플릿을 설계하여 업계 최초로 턴 기반 대화가 가능한 다중 캐릭터 대화를 구현했습니다. 이로써 AI 생성 캐릭터가 영화적 일관성을 유지하면서 맥락 인식 대화에 참여할 수 있게 되었습니다.

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Paper, Project

이 논문은 사용자 의도 해석의 병목 현상을 해결하기 위한 Any2Caption이라는 새로운 프레임워크를 소개합니다. 핵심 아이디어는 다양한 조건 해석 단계를 비디오 합성 단계와 분리하는 것입니다. 최신 다중 모달 대형 언어 모델(MLLM)을 활용하여 텍스트, 이미지, 비디오, 지역, 모션, 카메라 포즈와 같은 특수한 큐까지 다양한 입력을 밀도 있고 구조화된 캡션으로 해석하여 비디오 생성기에 더 나은 지침을 제공합니다. 또한 337K 인스턴스와 407K 조건을 포함하는 대규모 데이터셋인 Any2CapIns를 도입하여 다양한 조건에서 캡션 지시 튜닝을 가능하게 합니다. 포괄적인 평가를 통해 이 시스템이 기존 비디오 생성 모델의 다양한 측면에서 제어 가능성과 비디오 품질을 크게 향상시킨다는 것을 입증하였습니다.

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Paper, Project

이 논문은 추론 기반 시각적 편집(RISE)을 평가하기 위한 최초의 벤치마크인 RISEBench를 소개합니다. 대형 다중 모달리티 모델(LMM)은 시각적 이해와 생성에 상당한 진전을 이루었지만, 복잡한 지시를 따르고, 외관 일관성을 유지하며, 유연한 입력 형식을 지원하는 일반 시각적 편집에서는 여전히 어려움이 있습니다. RISEBench는 시간적, 인과적, 공간적, 논리적 추론이라는 네 가지 핵심 추론 유형에 초점을 맞추고 있습니다. 각 카테고리에 대한 고품질 테스트 케이스를 선별하고, 지시 추론, 외관 일관성, 시각적 타당성을 인간 심사위원과 LMM-as-a-judge 접근법으로 평가하는 프레임워크를 제안합니다. 실험 결과, GPT-4o-Native가 다른 오픈 소스 및 독점 모델보다 크게 앞서지만, 이러한 최첨단 시스템조차도 논리적 추론 작업에서는 어려움을 겪는 것으로 나타났습니다. RISEBench는 추론 인식 시각적 편집에 대한 기초적인 통찰을 제공하고 향후 연구를 촉진하는 것을 목표로 합니다.

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Paper, Project

이 연구는 R1-Zero와 유사한 훈련을 통해 다중 모달 대형 언어 모델(MLLM)의 시각-공간 추론 능력을 향상시키는 방법을 심층적으로 조사합니다. 물리적 영역에서 기능하는 AI 에이전트의 초석으로서, 비디오 기반 시각-공간 지능(VSI)이 MLLM의 가장 핵심적인 추론 능력 중 하나로 부상하고 있습니다. 기술적으로는 먼저 소형-중형 Qwen2-VL 모델의 시각-공간 추론 능력이 사고 연쇄(CoT) 프롬프트를 통해 활성화될 수 없음을 확인했습니다. 이후 DeepSeek-R1-Zero를 따라 조심스럽게 선별된 VSI-100k 데이터셋을 사용하여 개선된 시각-공간 추론을 위한 GRPO 훈련을 통합했습니다. 연구 과정에서 GRPO에서 KL 페널티를 유지해야 할 필요성을 확인했습니다. 단 120 GPU 시간만으로 Qwen2-VL-2B에서 미세 조정된 vsGRPO-2B 모델은 기본 모델보다 12.1% 높은 성능을 보이며 GPT-4o를 능가할 수 있었습니다.

컴퓨터 그래픽스 및 애니메이션 분야

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Paper, Project

DreamActor-M1은 하이브리드 가이드를 통한 전체적이고 표현력 있으며 견고한 인간 이미지 애니메이션을 위한 접근법을 제시합니다. 최근의 이미지 기반 인간 애니메이션 방법들이 사실적인 신체와 얼굴 모션 합성을 달성했지만, 미세한 전체적 제어 가능성, 다중 규모 적응성, 장기적 시간 일관성에 있어 중요한 격차가 남아있어 표현력과 견고성이 낮아집니다. 이 연구는 암시적 얼굴 표현, 3D 헤드 구체, 3D 신체 골격을 통합하는 하이브리드 제어 신호를 사용하여 얼굴 표정과 신체 움직임을 강력하게 제어하면서 표현력 있고 정체성을 보존하는 애니메이션을 생성합니다. 다양한 신체 포즈와 초상화부터 전신 뷰까지 다양한 이미지 규모를 처리하기 위해 다양한 해상도와 규모의 데이터를 사용한 점진적 훈련 전략을 채택했습니다. 실험 결과 이 방법이 최신 기술을 능가하며, 초상화, 상체, 전신 생성에서 표현력 있는 결과와 강력한 장기적 일관성을 제공한다는 것을 입증했습니다.

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

Paper, Project

TokenHSI는 작업 토큰화를 통한 물리적 인간-장면 상호작용(HSI)의 통합 합성 방법을 제안합니다. 다양하고 물리적으로 타당한 HSI 합성은 컴퓨터 애니메이션과 체화된 AI 모두에게 중요합니다. 현재의 방법들은 주로 특정 상호작용 작업에 특화된 별도의 컨트롤러 개발에 중점을 두고 있어, 물건을 들고 앉는 것과 같이 여러 기술의 통합이 필요한 다양한 도전적 HSI 작업을 다루는 능력을 크게 제한합니다. 이 문제를 해결하기 위해 TokenHSI는 다중 기술 통합과 유연한 적응을 가능하게 하는 단일, 통합 트랜스포머 기반 정책을 제시합니다. 핵심 아이디어는 휴머노이드 고유수용을 별도의 공유 토큰으로 모델링하고 마스킹 메커니즘을 통해 고유한 작업 토큰과 결합하는 것입니다. 이러한 통합 정책은 기술 간의 효과적인 지식 공유를 가능하게 하여 다중 작업 훈련을 촉진합니다. 실험 결과 이 접근법이 다양한 HSI 작업에서 다양성, 적응성, 확장성을 크게 향상시킬 수 있음을 보여줍니다.

Sky

XR과 AI에 관심이 많은 Sky 입니다.

이전 포스트

[2025/W13] 🤗 Weekly AI Research

다음 포스트

[2025/W14] 🤗 Weekly AI Research

Weekly AI Research Digest

TL;DR

AI 에이전트 및 시스템 분야

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

자연어 처리 분야

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

컴퓨터 비전 분야

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

멀티모달 분야

MoCha: Towards Movie-Grade Talking Character Synthesis

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

컴퓨터 그래픽스 및 애니메이션 분야

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

[2025/W13] 🤗 Weekly AI Research

[2025/W15] 🤗 Weekly AI Research

0개의 댓글