[2025/W11] 🤗 Weekly AI Research

Sky·2025년 3월 15일

Weekly AI Research Digest

목록 보기

11/89

2025년 11주차에 공개된 주목할만한 AI 분야의 논문들을 소개합니다.

TL;DR

언어 모델 및 텍스트 처리 분야에서는 Sparse Autoencoder를 통해 인공 생성 텍스트 탐지(ATD)의 해석 가능성을 높이고 인간과 LLM 간의 글쓰기 스타일 차이를 규명했습니다. EuroBERT는 최신 생성(decoder-only) 모델의 발전을 양방향 인코더에 적용하여 유럽 및 글로벌 언어를 위한 다국어 인코더 성능을 개선했습니다. SEAP는 학습 없이 LLM의 task-specific한 전문가(expert)를 선택적으로 pruning하여 계산 효율성을 높이고 성능 저하를 최소화했습니다.

멀티모달 이해 및 추론 분야에서는 UnifiedReward는 이미지 및 비디오 이해·생성을 동시에 평가하는 최초의 통합 보상 모델로, 공동 학습 시 상호 성능 향상 효과를 보였습니다. LMM-R1은 소형(3B) 멀티모달 모델에서 두 단계 규칙 기반 RL을 통해 추론 능력을 크게 개선했습니다. 4D LangSplat은 멀티모달 LLM을 통해 동적 장면에서 개방형 언어 질의를 효과적으로 처리하는 새로운 4D 스플래팅 방식을 제안했습니다.

3D 재구성 및 동작 생성 분야에서는 PE3R은 기존 방식 대비 최소 9배 빠른 속도와 높은 정확성으로 2D→3D 재구성의 일반화 성능을 크게 개선했습니다. Motion Anything은 텍스트 및 음악 등 멀티모달 조건을 효과적으로 통합하여 정밀한 조건부 동작 생성 성능을 달성했습니다.

전문 분야 및 문화 특화 데이터셋 구축 분야에서는 RuCCoD는 러시아어로 구축된 ICD 코드 데이터셋으로, 자동화를 통해 의사의 수동 라벨링 대비 높은 정확도를 달성하며 러시아어 의료 데이터 자동화 가능성을 입증했습니다. SEA-VL은 동남아시아의 문화적 특성을 반영한 이미지 약 128만 장 규모의 데이터셋을 구축하여 지역 문화의 대표성 문제를 해결하고 AI 다양성을 강화했습니다.

언어 모델 및 텍스트 처리

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Paper

대규모 언어모델(LLM)의 발전으로 인해 인공 생성 텍스트 탐지(Artificial Text Detection, ATD)의 중요성이 높아지고 있지만, 다양한 유형의 미확인 텍스트에 일관되게 우수한 성능을 보이거나 새로운 LLM에 효과적으로 일반화되는 알고리즘은 아직 존재하지 않습니다. 이를 해결하기 위해 본 연구는 Sparse Autoencoders(SAE)를 사용하여 Gemma-2-2b의 residual stream에서 특징(feature)을 추출함으로써 ATD의 해석 가능성(interpretability)을 향상시켰습니다. 추출된 특징의 의미론과 연관성을 도메인 및 모델별 통계 분석, 스티어링(steering) 기법, 수동 또는 LLM 기반 해석을 통해 분석하였습니다. 연구 결과, 최신 LLM은 인간과 유사한 출력을 생성할 수 있음에도 불구하고, 특히 정보 밀도가 높은 도메인에서는 고유한 글쓰기 스타일이 있음을 확인했습니다.

EuroBERT: Scaling Multilingual Encoders for European Languages

Paper, Project

최근 생성(decoder-only) 모델의 발전으로 인해 범용 다국어 벡터 표현을 얻는 데 사용되었던 기존의 양방향 인코더 모델이 주목받지 못하고 있습니다. 본 논문에서는 최근 생성 모델 발전의 핵심 혁신을 다국어 인코더 개발에 적용하여 유럽 및 전 세계적으로 널리 사용되는 언어를 지원하는 EuroBERT 모델군을 소개합니다. EuroBERT는 다국어 능력, 수학 및 코딩을 포함한 다양한 작업에서 기존 모델의 성능을 뛰어넘으며, 최대 8,192 토큰의 긴 시퀀스를 기본적으로 처리할 수 있습니다. 또한 데이터셋 구성 및 훈련 파이프라인 등 설계 결정 과정을 상세히 제시하고 중간 학습 체크포인트를 포함하여 모델과 훈련 프레임워크를 공개합니다.

SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Paper, Project

대규모 언어모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성과를 거두었으나, 추론 시 높은 계산 비용이 주요한 장애물로 남아있습니다. 본 논문은 추론 과정에서 작업과 관련된 파라미터만 선택적으로 유지하여 추론 비용을 줄이는, 학습이 필요 없는 가지치기(pruning) 기법인 Sparse Expert Activation Pruning(SEAP)을 소개합니다. SEAP은 LLM의 hidden state와 활성화에서 나타나는 클러스터링 패턴에 착안하여, 작업에 특화된 전문가(expert) 활성화 패턴을 식별하고 모델 성능을 유지하면서 연산 효율성을 향상시킵니다. 실험 결과, SEAP은 경쟁력 있는 정확성을 유지하면서도 계산 오버헤드를 크게 감소시킵니다. 특히, 50% pruning에서 기존 방법인 WandA와 FLAP을 20% 이상 능가했으며, 20% pruning에서도 원본 밀집 모델(dense model)에 비해 성능이 단지 2.2%만 저하되었습니다. 이러한 결과는 SEAP의 확장성과 효율성을 입증하며, 대규모 LLM 최적화에 유망한 접근법임을 시사합니다.

멀티모달 이해 및 추론

Unified Reward Model for Multimodal Understanding and Generation

Paper, Project

최근 사람의 선호도 정렬(Human Preference Alignment)의 발전은 멀티모달 생성 및 이해 능력을 크게 향상시켰습니다. 대표적인 접근법은 보상 모델을 학습하여 선호도를 최적화하는 것이지만, 기존 모델은 작업별로 특화되어 다양한 시각적 응용 프로그램에서의 적응성이 제한되었습니다. 본 논문은 다양한 작업을 공동으로 평가할 때 이미지 이해가 이미지 생성 평가를 향상시키고, 개선된 이미지 평가가 비디오 평가에도 도움이 되는 등 상호 간 시너지 효과를 촉진할 수 있다고 주장합니다. 이를 바탕으로 이미지와 비디오의 생성 및 이해 작업을 모두 포함하는 대규모 인간 선호도 데이터셋에서 훈련한 최초의 통합 보상 모델인 UnifiedReward를 제안합니다. 이 모델은 pairwise ranking 및 pointwise scoring 방식을 모두 지원하여 비전 모델의 선호도 정렬(preference alignment)에 활용할 수 있습니다. 실험 결과, 다양한 시각적 작업의 평가를 공동으로 학습하는 것이 서로에게 상당한 이점을 제공함을 입증하였습니다.

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Paper, Project

대규모 멀티모달 모델(LMM)의 추론 능력 강화는 특히 소규모 모델(3B)에서 시각 인지와 논리적 추론 간 복잡한 상호작용으로 인해 많은 어려움을 겪고 있습니다. 텍스트 기반에서는 rule-based 강화학습(RL)이 우수한 성능을 보였지만, 이를 멀티모달로 확장할 때 데이터 부족과 모호한 정답으로 인한 한계가 있습니다. 본 논문은 두 단계로 구성된 rule-based RL 프레임워크인 LMM-R1을 제안합니다. 첫 번째 단계인 Foundational Reasoning Enhancement(FRE)에서는 텍스트 데이터를 이용한 rule-based RL로 추론 능력을 강화하고, 이후 두 번째 단계(Multimodal Generalization Training, MGT)에서는 강화된 추론 능력을 멀티모달 영역으로 일반화합니다. Qwen2.5-VL-Instruct-3B를 이용한 실험에서 멀티모달 벤치마크에서 평균 4.83%, 텍스트 벤치마크에서 4.5%, 복잡한 Football Game 과제에서 3.63% 성능 향상을 보였습니다.

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Paper, Project

시간에 민감하고 개방적인 언어 질의(open-ended language queries)를 처리하는 4차원(4D) 언어 필드를 동적(dynamic) 장면에서 학습하는 것은 현실 응용 분야에서 필수적입니다. 기존의 LangSplat은 3D 정적 장면에서 CLIP 특징을 Gaussian 표현으로 grounding하는 데 성공했지만, CLIP은 정적 이미지-텍스트 작업을 위해 설계되어 있어 비디오의 시간적 역학을 포착하지 못합니다. 이를 극복하기 위해 본 논문에서는 4D LangSplat을 제안합니다. 본 연구는 멀티모달 대형 언어모델(MLLM)을 활용한 multimodal object-wise video prompting 방식을 통해, 시각 및 텍스트 프롬프트를 사용하여 비디오 내 객체에 대해 시간적으로 일관되고 높은 품질의 상세한 캡션을 생성합니다. 생성된 캡션을 LLM을 이용해 문장 임베딩으로 변환하여 픽셀 단위로 객체에 맞춘 특징(feature)의 supervision으로 활용합니다. 이를 통해 개방형 언어 질의(open-vocabulary queries)를 정밀하게 처리할 수 있게 되었습니다.

3D 재구성 및 동작 생성

PE3R: Perception-Efficient 3D Reconstruction

Paper, Project

최근 2D에서 3D로의 지각(perception) 기술 발전으로 2D 이미지로부터 3D 장면을 이해하는 능력이 크게 향상되었지만, 기존 방법은 제한된 장면 일반화, 불충분한 지각 정확도, 느린 재구성 속도라는 심각한 문제를 겪고 있습니다. 이를 해결하기 위해 본 연구는 정확성과 효율성을 모두 개선한 Perception-Efficient 3D Reconstruction(PE3R)을 제안합니다. PE3R은 피드포워드(feed-forward) 아키텍처를 활용하여 빠른 3D semantic field 재구성을 가능하게 합니다. 다양한 장면과 객체에 대해 뛰어난 zero-shot 일반화 능력을 보였으며, 실험 결과 3D semantic field 재구성 속도에서 최소 9배의 가속화를 이루면서도 지각 정확도 및 재구성 정밀도를 크게 개선하였습니다.

Motion Anything: Any to Motion Generation

Paper, Project

조건부 동작 생성은 컴퓨터 비전 분야에서 활발히 연구되었지만, 기존 masked autoregressive 방식은 조건으로 주어진 동적 프레임이나 신체 부위를 우선 처리하는 메커니즘이 부족했습니다. 또한 다양한 조건(텍스트, 음악 등)을 효과적으로 결합하지 못하는 문제가 존재했습니다. 본 연구는 이를 해결하기 위해 Attention 기반의 Mask Modeling 방식을 도입한 Motion Anything을 제안합니다. 이 방법은 주요 프레임과 동작을 세밀하게 제어할 수 있으며, 텍스트와 음악과 같은 멀티모달 조건을 적응적으로 인코딩하여 동작 생성의 제어 가능성을 향상했습니다. 또한 2,153개의 텍스트-음악-댄스로 구성된 새로운 동작 데이터셋(Text-Music-Dance, TMD)을 구축했습니다. 실험 결과, 기존 최첨단 기법보다 HumanML3D 벤치마크에서 FID 점수 기준 15%의 성능 향상을 기록했으며, AIST++와 TMD에서도 일관된 성능 개선을 달성했습니다.

전문 분야 및 문화 특화 데이터셋 구축

RuCCoD: Towards Automated ICD Coding in Russian

Paper, Project

본 연구는 자원이 제한된 러시아어 환경에서 임상 코딩(ICD coding) 자동화의 가능성을 탐구합니다. 이를 위해 전자건강기록(EHR)의 진단 항목에서 10,000개 이상의 개체(entity) 및 1,500개 이상의 고유 ICD 코드로 주석 처리된 새로운 ICD 코딩 데이터셋을 러시아어로 구축하였습니다. 본 데이터셋을 이용하여 BERT, LoRA를 적용한 LLaMA, 그리고 RAG와 같은 최첨단 모델의 성능을 평가하고, 추가적으로 도메인 간(PubMed 초록에서 의료 진단 데이터로) 및 용어 간(UMLS 개념에서 ICD 코드로의) 전이학습을 실험하였습니다. 이후 최적 성능을 보인 모델을 활용하여 2017년에서 2021년까지의 환자 기록이 포함된 병원 내부 EHR 데이터를 자동으로 라벨링하였습니다. 신중하게 구축된 테스트셋에서의 실험 결과, 자동으로 예측한 코드로 훈련했을 때 의사가 수동으로 주석을 단 데이터로 훈련했을 때보다 정확도가 상당히 개선됨을 입증했습니다. 이를 통해 러시아어와 같이 자원이 제한된 언어에서도 임상 코딩 자동화가 가능하다는 통찰을 제시했습니다.

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Paper, Project

동남아시아(SEA)는 언어적·문화적으로 매우 다양하지만, 비전-언어(VL) 연구에서 크게 소외되어 있습니다. 이는 AI 모델이 동남아시아 문화적 뉘앙스를 포착하지 못하는 결과를 초래합니다. 이를 해결하기 위해 본 논문은 동남아시아 언어에 맞춘 고품질의 문화 관련 데이터셋 구축을 목표로 하는 오픈소스 이니셔티브인 SEA-VL을 제안합니다. SEA 국가의 기여자들이 참여하여 문화적 관련성과 다양성을 보장하였으며, 크라우드소싱을 넘어 웹 크롤링과 이미지 생성 등 자동화된 이미지 수집 방식을 추가로 탐색하였습니다. 연구 결과, 이미지 크롤링은 크라우드소싱 대비 비용 및 시간 효율적이면서 약 85%의 문화적 적합성을 달성했지만, 생성된 이미지는 여전히 SEA 문화의 미묘한 전통과 문화적 맥락을 정확히 반영하지 못했습니다. 결론적으로 총 128만 개의 SEA 문화 관련 이미지를 수집했으며, 이는 기존 데이터셋보다 50배 이상 큰 규모입니다.

Sky

XR과 AI에 관심이 많은 Sky 입니다.

이전 포스트

[2025/W10] 🤗 Weekly AI Research

다음 포스트

[2025/W11] 🤗 Weekly AI Research

Weekly AI Research Digest

TL;DR

언어 모델 및 텍스트 처리

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

EuroBERT: Scaling Multilingual Encoders for European Languages

SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

멀티모달 이해 및 추론

Unified Reward Model for Multimodal Understanding and Generation

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

3D 재구성 및 동작 생성

PE3R: Perception-Efficient 3D Reconstruction

Motion Anything: Any to Motion Generation

전문 분야 및 문화 특화 데이터셋 구축

RuCCoD: Towards Automated ICD Coding in Russian

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

[2025/W10] 🤗 Weekly AI Research

[2025/W12] 🤗 Weekly AI Research

0개의 댓글