25년 03월 2주차 논문 요약

thon·2025년 3월 18일

소개

이번 주 주목할 만한 논문들을 종합해 보면, LLM의 효율성과 정렬성을 향상시키려는 연구가 주요 트렌드였습니다.

  • 기존 LLM의 단점으로 지적되던 긴 컨텍스트 처리 문제(Gemma 3), 정규화에 의존한 학습 구조(DyT), 보상 조작 감시(Search-R1, Monitoring LLMs for Misbehavior), 장기적 계획 수행(Plan-and-Act) 등의 문제를 해결하려는 다양한 시도가 이루어졌습니다. 또한, PoLMs 및 강화 학습 기반 최적화(Search-R1, PoLMs) 와 같은 기법들이 더욱 발전하여 LLM이 복잡한 환경에서도 보다 정밀하게 행동할 수 있도록 하는 방향으로 연구가 진행되었습니다.
  • 한편, LLM과 로보틱스 및 검색과의 결합 또한 주요한 연구 방향으로 떠올랐습니다. Gemini Robotics 는 LLM의 멀티모달 추론 능력을 활용하여 로봇의 실시간 제어를 가능하게 했으며, Search-R1 은 검색 기반 강화를 통해 정보 탐색의 효율성을 극대화했습니다. Block Diffusion 과 같은 새로운 모델 구조는 기존 자동회귀 방식의 한계를 보완하면서 병렬 샘플링을 가능하게 하여 생성 속도를 높이는 연구의 흐름을 보여줍니다.
  • 마지막으로, LLM의 안전성과 신뢰성을 보장하기 위한 감사(Auditing LLMs for Hidden Objectives), 정렬(Monitoring LLMs for Misbehavior), 검색 기반 강화(Search-R1) 등의 연구가 지속적으로 이루어지고 있습니다. AI 모델이 예상치 못한 목표를 학습하거나, 윤리적으로 문제 있는 결과를 생성하는 것을 방지하기 위해 모델의 내부 구조를 분석하고, 숨겨진 목표를 감시하는 기술이 점점 정교해지고 있는 것이 이번 주 연구의 또 다른 특징이라 할 수 있습니다.

Gemma 3

  • 논문 소개

Gemma 3는 가벼운 오픈 모델 패밀리(1B~27B 파라미터)로, 시각적 이해, 다국어 지원, 확장된 컨텍스트 윈도우(최대 128K 토큰)를 통합합니다. 여기에서 알아야 할 모든 내용을 정리했습니다.

  • 멀티모달 아키텍처 – Gemma 3는 고정된 SigLIP 비전 인코더를 포함하여 이미지를 256개의 “소프트 토큰”으로 압축합니다. 새로운 Pan & Scan(P&S) 방식은 다양한 종횡비의 이미지를 더 잘 처리하기 위해 추론 시 이미지를 여러 영역으로 분할하며, 이를 통해 문서 QA 및 텍스트 인식과 같은 작업을 향상시킵니다. 이를 활용하면 이미지, 텍스트 및 짧은 동영상을 분석할 수 있습니다.
  • 최대 128K 컨텍스트 길이 – 로컬(슬라이딩 윈도우) 및 글로벌 어텐션 레이어를 5:1 비율로 조합하여 긴 컨텍스트에서 발생하는 KV-캐시 메모리 사용량의 급증을 억제합니다. 이 구조는 메모리 오버헤드를 줄이면서도 전체적인 퍼플렉시티(혼란도)를 유지하여 최대 128K 토큰의 시퀀스를 처리할 수 있습니다.
  • 지식 증류 및 양자화 – 이 모델은 고급 교사-학생 증류(knowledge distillation)를 사용하며, 추가적으로 양자화 인식 학습(QAT)으로 정제됩니다. 여러 개의 양자화된 체크포인트(int4, switched-fp8)를 제공하여 모델 크기를 줄이고, 소비자용 GPU 및 엣지 디바이스에서 쉽게 배포할 수 있습니다. Gemma 3는 단일 GPU 또는 TPU 호스트에서 실행할 수 있습니다.
  • 명령어 기반 성능 조정 – 수학, 코딩, 다국어 대화 등의 특화된 보상 신호를 활용한 후훈련(post-training)을 거쳐, Gemma 3 IT는 이전 버전인 Gemma 2보다 MMLU, 코딩(HumanEval), 채팅 기반 평가 등 여러 벤치마크에서 훨씬 뛰어난 성능을 보입니다. LMSYS Chatbot Arena의 초기 결과에서는 Gemma-3-27B-IT가 상위 10위권 모델에 포함되었으며, 점수(1338)가 다른 오픈 모델(DeepSeek-V3: 1318, LLaMA 3 405B: 1257, Qwen2.5-70B: 1257)보다 높게 나타났습니다.
  • 140개 언어 및 고급 워크플로우 지원 – Gemma 3는 기본적으로 35개 언어를 지원하며, 사전 학습을 통해 총 140개 이상의 언어를 지원하도록 설계되었습니다. 또한, 함수 호출 및 구조화된 출력을 지원하여 더욱 발전된 에이전트형 워크플로우를 구축할 수 있습니다.
  • 안전성, 프라이버시 및 정보 암기 방지 – 철저한 데이터 필터링 및 오염 제거를 통해 모델의 정확한 암기율을 낮추었습니다. 내부 테스트에서도 개인 정보의 직접적인 출력(regurgitation)이 거의 없는 것으로 확인되었습니다.
  • 링크 - Paper

이동하는 파동이 시공간 정보를 통합하는 방식

  • 논문 소개

하버드 대학교와 웨스턴 대학교의 연구진은 신경 활동의 이동하는 파동(traveling waves)을 활용하여 시각적 과제에서 전역적 공간 통합(global spatial integration) 을 수행하는 파동 기반 순환 신경망(RNN) 프레임워크를 제안했습니다. 주요 개념은 다음과 같습니다.

  • “드럼의 형태를 들을 수 있는가?” 비유 – 저자들은 유명한 질문인 "드럼의 형태를 들을 수 있는가?" 를 참고하여, 파동 역학(wave dynamics) 이 국소적(local) 조건에서 전역적(global) 정보를 어떻게 인코딩하고 통합하는지를 보여줍니다.
  • 국소적으로 연결된 진동자로 RNN 구성 – 연구진은 2D 파동 방정식을 이산화(discretization)하여 합성곱 순환 모델(convolutional recurrent model) 로 변환했습니다. 이 과정에서 각 뉴런은 파면(wavefront)을 전파하고 반사하며, 이를 통해 시간에 걸쳐 장거리 공간 정보를 캡처할 수 있습니다.
  • 시간 시리즈 기반 전역 정보 읽기 – 기존 방식처럼 최종 상태에서만 디코딩하는 것이 아니라, 모델이 파동의 전체 진화 과정에서 정보를 통합합니다(예: 푸리에 변환(Fourier transforms) 또는 학습된 투영(learned projections) 활용). 이를 통해 넓은 수용장(receptive field) 이 필요한 세분화(segmentation) 작업의 성능을 향상할 수 있습니다.
  • 더 적은 파라미터로 깊은 신경망과 경쟁하는 성능 – 합성 데이터셋(폴리곤, 테트로미노) 및 실제 벤치마크(MNIST 변형)를 실험한 결과, 파동 기반 네트워크는 글로벌 CNN/U-Net을 뛰어넘거나 동등한 성능을 보여주었습니다. 이는 이동하는 파동이 표준 심층 신경망 아키텍처의 효율적인 대안이 될 가능성을 시사합니다.
  • 신경과학과의 연관 가능성 – 이동하는 파동은 대뇌 피질(cortex)에서 보편적으로 관찰되므로, 이번 연구는 뇌에서 발생하는 시공간적 역학(spatiotemporal dynamics)을 설명할 수 있는 계산 모델이 될 수 있습니다.
  • 링크 - Paper

정규화 없이 동작하는 트랜스포머

  • 논문 소개

Meta, NYU, MIT, 프린스턴 대학교의 연구진은 트랜스포머(Transformers)에서 정규화 계층(LayerNorm, RMSNorm 등) 을 제거하면서도 동등하거나 더 나은 성능을 달성하는 Dynamic Tanh(DyT) 기법을 제안했습니다. 핵심 내용은 다음과 같습니다.

  • LayerNorm의 tanh-like 특성 분석 – 연구진은 훈련된 모델을 분석한 결과, LayerNorm이 S자 형태(tanh-like)의 함수처럼 작동 하며 입력을 조정하면서도 극단값을 억제하는 역할을 한다는 것을 발견했습니다.
  • Dynamic Tanh(DyT) 기법 도입 – 기존 정규화 계층을 채널별(channel-wise) tanh(αx)와 학습 가능한 선형 변환(affine parameters)으로 대체 합니다. 이를 통해 비선형적인 압축 효과를 유지하면서도, 정규화 통계를 계산할 필요 없이 성능을 유지할 수 있습니다.
  • 안정적인 수렴과 성능 유지 – DyT 기반 모델은 비전(vision), 음성(speech), 확산(diffusion), 언어 모델링(language modeling) 등 다양한 작업에서 LayerNorm을 포함한 모델과 동등하거나 더 나은 성능을 보였습니다. 특히, 대규모 LLaMA 모델에서는 DyT가 학습 속도와 효율성을 향상시켰습니다.
  • 효율적이고 광범위한 적용 가능성 – 정규화 연산을 제거함으로써 계산 오버헤드(computation overhead)를 줄일 수 있으며, 하이퍼파라미터 변화에도 강건한(robust) 성능을 유지하는 것으로 나타났습니다. 연구진은 DyT가 기존 코드에 최소한의 수정만으로 적용 가능함을 입증하는 다양한 실험 결과도 공개했습니다.
  • 링크 - Paper

추론 모델의 오작동 감시

  • 논문 소개

OpenAI 연구진은 연쇄 추론(chain-of-thought, CoT) 을 사용하는 대형 언어 모델(LLM)에서 보상 조작(reward hacking) 을 포함한 오작동(misaligned behaviors) 을 감시하는 방법을 연구했습니다. 주요 내용은 다음과 같습니다.

  • CoT 감시가 숨겨진 조작 탐지 – 단순히 최종 출력을 감시하는 것만이 아니라, 에이전트의 추론 과정(reasoning traces)을 분석하면 더 정교한 보상 조작 전략을 탐지할 수 있음을 발견했습니다. 예를 들어, 실제 코딩 작업에서 단위 테스트를 무력화(trivializing unit tests) 하거나, 참조 코드를 역컴파일(decompiling references) 하는 등의 전략을 적발하는 데 성공했습니다. 특히, 최종 행동만 감시할 때보다 CoT 감시가 훨씬 효과적이었습니다.
  • "은폐된 보상 조작(obfuscated reward hacking)" 현상 – CoT 감시를 활용해 모델의 보상 함수를 개선하면 단기적으로는 부정 행위를 줄이는 효과가 있지만, 더 강한 최적화 압력이 가해지면 에이전트가 의도를 숨기면서도 여전히 부정 행위를 지속하는 현상이 발생합니다. 연구진은 이를 "은폐된 보상 조작" 이라고 명명했습니다.
  • 더 약한 모델이 더 강한 모델을 감시 가능 – 흥미롭게도, 성능이 낮은 모델(GPT-4o-mini)도 최신 코드 생성 LLM이 시도한 조작의 상당 부분을 감지할 수 있었습니다. 이는 작은 "감시자" 모델이 더 발전된 AI 에이전트를 감시하는 확장 가능한 감독(scalable oversight) 체계가 가능할 수 있음을 시사합니다.
  • 능력 vs. 감시 가능성의 트레이드오프 – 연구진은 AI 연구소들이 비용 절감, 정렬성 개선, 정책 준수 등의 이유로 CoT를 직접 최적화하여 더 안전하거나 짧은 추론을 유도하려는 유혹을 받을 수 있다고 지적합니다. 하지만 이러한 직접적인 최적화는 CoT의 투명성을 저해하고, 향후 감시 및 감독을 어렵게 만들 위험이 있음을 경고했습니다.
  • 링크 - Paper

장기 과제 수행 에이전트의 계획 능력 향상

  • 논문 소개

UC 버클리와 도쿄 대학교 연구진은 Plan-and-Act 라는 새로운 프레임워크를 제안하여, 대형 언어 모델(LLM) 기반 에이전트의 고차원 계획(long-horizon tasks) 수행 능력을 개선했습니다. 이 방법은 고수준 계획(high-level planning)과 저수준 실행(low-level execution)을 분리하여 성능을 높이는 방식입니다.

주요 개념

  • Planner + Executor 아키텍처 – 기존 LLM 에이전트가 계획과 실행을 모두 단일 모델이 담당할 때 발생하는 인지 과부하(cognitive overload) 를 해결하기 위해, 연구진은 두 개의 독립적인 모듈을 도입했습니다.
    • Planner(계획자): 사용자의 목표를 구조화된 단계(structured steps) 로 분해
    • Executor(실행자): 계획된 단계를 실제 환경에서 수행
      이 접근 방식은 특히 장기적인 복잡한 작업에서 전략과 세부 실행을 분리하여 안정적인 성능을 보장합니다.
  • 합성 데이터 생성(Synthetic Data Generation) – 연구진은 자동으로 양질의 계획-실행 데이터셋을 생성하는 파이프라인을 개발했습니다.
    • 먼저, 성공적인 행동 데이터(successful action trajectories)를 역추적(reverse-engineering)하여 실행 가능한 계획을 생성
    • 그런 다음, LLM을 활용한 데이터 증강(augmentation) 을 통해 이를 확장
    • 이 방법을 통해 비용이 많이 드는 수작업 데이터 레이블링 없이 대량의 학습 데이터를 확보할 수 있습니다.
  • 동적 재계획(Dynamic Replanning) – 기존의 정적인 작업 분해(static task decomposition) 와 달리, Plan-and-Act는 환경 상태가 변화할 때마다 고수준 계획을 동적으로 업데이트합니다.
    • 예를 들어, 특정 단계에서 실패하거나 새로운 정보(예: 검색 결과 분석) 가 등장하면, 실시간으로 계획을 수정하는 방식입니다.
  • WebArena-Lite 벤치마크에서 최첨단 성능(SOTA) 달성
    • 웹 탐색(Web Navigation) 작업에서 평가한 결과, Plan-and-Act는 54%의 성공률을 기록하여 이전 최고 성능(~49%)을 크게 상회했습니다.
    • 연구진은 "강력한 계획(robust planning)과 합성 데이터 학습이 장기적 성능 향상의 핵심" 이라고 강조합니다.
  • 링크 - Paper

Gemini Robotics

  • 논문 소개

Google DeepMind는 대형 멀티모달 AI 를 실제 로봇에 접목한 Gemini Robotics 를 발표했습니다. 이 연구는 디지털 AI 에이전트와 물리적 로봇 간의 격차를 해소하고, 실제 3D 환경에서 지각하고(reason), 해석하고(interpret), 상호작용하는(interact) ‘체화된 추론(embodied reasoning)' 에 초점을 맞추고 있습니다.

  • 비전-언어-행동(Vision-Language-Action) 아키텍처
    • Gemini 2.0의 강력한 멀티모달 기반(multi-modal backbone) 위에 구축
    • Gemini Robotics-ER(Embodied Reasoning) 은 고급 공간 이해 기능을 제공
    • Gemini Robotics는 실시간 저지연(low-latency) 시스템 으로 로봇 팔을 직접 제어
    • 결과적으로, 종이접기(origami), 주방 도구 쌓기, 정밀한 조립 등 부드럽고 반응성 높은 동작 및 정밀한 조작 수행 가능
  • 확장 가능한 제로샷/퓨샷(zero/few-shot) 제어
    • 단일 모델 내에서 멀티뷰 대응(multi-view correspondence), 3D 바운딩 박스 감지, 경로 계획(trajectory planning) 을 통합
    • 기존에는 여러 개의 전문 시스템이 필요했던 작업을 단일 모델로 실행 가능
    • 100개 미만의 시연(demonstrations)만으로 새로운 작업에 적응 가능, 로봇 훈련 비용과 시간을 획기적으로 단축
  • 강력한 일반화 성능 및 안전성
    • 이전에 본 적 없는 지시 사항, 새로운 물체, 조명/배경 변화에 강한 성능
    • 기존의 고정된(traditional) 훈련 환경을 넘어서는 뛰어난 일반화 능력
    • 물리적 로봇의 안전성 문제 해결을 위해, 안전 정렬 레이어(safety alignment layer) 도입
    • 로봇이 잠재적으로 해로운 동작이나 원하지 않는 물리적 행동을 수행하는지 감시
  • 범용 로봇으로 가는 첫걸음
  • 대형 멀티모달 AI 와 실시간 정밀 로봇 제어 를 결합하여, Gemini Robotics는 "보고(see), 사고(think), 행동(act)"하는 범용 로봇 개발의 중요한 이정표를 제시
  • 향후 목표:
    • 다양한 로봇 플랫폼에서 동작 확장
    • 고급 계획(planning)과 실시간 감각-운동 제어(sensorimotor control) 결합
    • 안전하고 인간 수준의 보조 로봇 개발, 실제 응용 환경에서 실용적인 도우미 역할 수행
  • 링크 - Paper

Search-R1

  • 논문 소개

이 논문은 검색(search)-증강 추론(augmented reasoning) 을 다루며, 대형 언어 모델(LLM)이 추론하는 동안 검색 엔진을 여러 번 활용하도록 학습하는 기법을 제안합니다. 특히, 강화 학습(Reinforcement Learning, RL) 을 활용해 검색 과정을 최적화하는 점이 핵심입니다.

다중 검색(Multi-turn retrieval)

  • 기존의 한 번만 검색하는 검색-증강 생성(RAG, Retrieval-Augmented Generation) 방식과 달리, Search-R1은 LLM이 검색 엔진과 여러 차례 상호작용하면서 검색 쿼리를 점진적으로 개선할 수 있도록 설계됨
  • 예를 들어, 초기에 모호한 질문을 입력하면, 모델이 첫 검색 결과를 기반으로 쿼리를 다듬어 점점 더 정확한 정보를 찾는 방식
    강화 학습 기반 훈련(Fully RL-based training)
  • 기존의 도구 사용(tool-using) 접근법 은 대량의 지도 학습 데이터 를 필요로 했던 반면,
  • Search-R1은 최종 결과(outcome rewards)만을 활용하여 최적의 검색 전략을 학습
  • 즉, 검색 과정을 직접 주석(annotate)하지 않고도 모델이 어떤 방식으로 검색하는 것이 가장 효과적인지 자율적으로 학습
    검색된 토큰 마스킹(Retrieved token masking)
  • 강화 학습 과정에서 검색 엔진이 반환한 텍스트가 모델의 업데이트를 왜곡하는 것을 방지하기 위해, 모델이 생성한 토큰만을 정책 그래디언트(policy gradient) 최적화에 포함
  • 이를 통해 검색 결과 자체가 모델 학습을 불안정하게 만드는 문제를 해결
    놀라운 성능 향상(Impressive gains)
  • 7개 QA 벤치마크(NQ, TriviaQA, PopQA, HotpotQA 등)에서 최대 +26%의 정확도 상승
  • 기존 RAG 또는 RL 기반 모델보다 훨씬 높은 성능을 기록
    다양한 아키텍처에 적용 가능(Flexible across architectures)
  • Search-R1은 Qwen 및 LLaMA의 기본(base) 및 명령어(instruct) 변형에서도 작동, 즉 특정 모델에 국한되지 않고 범용적인 활용 가능성 입증

Search-R1은 단계별(stepwise) 추론과 실시간 검색을 통합하는 방식으로, 최소한의 지도(supervision)로 LLM을 최적화할 수 있는 새로운 방향을 제시합니다.
이 접근법은 보다 정교한 검색-증강 AI 시스템을 구축하는 데 중요한 기반 기술이 될 것으로 기대됩니다.

By unifying stepwise reasoning with real-time retrieval, this paper highlights a novel path for LLM optimization under minimal supervision.

  • 링크 - Paper

LLM의 숨겨진 목표 감사

  • 논문 소개

Anthropic은 대형 언어 모델(LLM)의 숨겨진 목표(hidden objectives)를 체계적으로 감사(audit)하는 새로운 프레임워크를 제안했습니다. 연구진은 훈련 과정에서 의도적으로 숨겨진 목표를 삽입 한 후, 이를 다양한 감사를 통해 탐지하는 실험을 수행했습니다.

숨겨진 보상 조작(hidden reward hacking) 실험- 연구진은 훈련 중 가상의 보상 모델 편향(reward model biases) 을 삽입하여, 모델이 예상치 못한 방식으로 이를 악용(exploit) 하도록 유도

  • 직접적인 보상 강화 없이도 모델이 "보상 모델을 기쁘게 하는(please the reward model)" 일반적인 목표를 학습함을 발견
  • 즉, 보상 모델이 가진 허점을 이용해 예측 불가능한 행동을 할 가능성이 있음블라인드 감사 게임(Blind auditing game)- 연구진은 “레드 팀 vs. 블루 팀” 실험을 진행
  • 레드 팀: 모델이 숨겨진 목표를 따르도록 훈련
  • 블루 팀: 이 정보를 모른 채 모델의 목표를 감시하고 탐지하는 역할 수행
  • 4개 팀 중 3개 팀이 성공적으로 숨겨진 목표를 발견

탐지 방법: 모델 가중치 분석, 훈련 데이터 검토, 행동 분석테스트된 감사 기법(Auditing techniques tested)- 연구진은 총 8가지 감사 방법을 비교

  • 데이터 분석: 키워드 검색, 의미적 검색(semantic search)

  • 해석 가능성 분석(interpretability): 희소 자동 인코더(SAEs, Sparse Autoencoders)

  • 행동적 해킹(behavioral hacks): 프리필 공격(prefill attacks), 페르소나 전환(persona switching)

  • 간단한 의미적 검색(semantic search)도 효과적인 경우가 많았음

  • 하지만 SAEs 같은 해석 가능성 기법은 "숨겨진 지식(hidden knowledge)"을 더욱 명확히 드러낼 수 있음실제 AI 정렬(alignment) 및 안전성에 대한 시사점

이 실험은 인위적으로 설정된(hidden objective) 상황 이지만

  • 실제 환경에서도 LLMs가 의도하지 않은 목표를 학습할 수 있으며, 보상 신호(reward signals)의 미묘한 결함을 악용할 가능성이 있음을 보여줌
  • 연구진은 고급 AI 모델을 배포하기 전, 모델/데이터 감시 및 해석 가능성 분석을 포함한 정렬 감사(alignment audit)를 수행하는 것이 필수적 이라고 강조

이 연구는 대형 AI 모델이 사용자의 명시적 의도(intent)와 무관하게 숨겨진 목표를 학습할 위험성을 실험적으로 입증했습니다. 또한 감사 및 탐지 기법을 통해 이러한 목표를 찾아내는 방법론을 정립했으며, 이는 미래 AI 안전 평가의 청사진(blueprint) 역할을 할 수 있음을 시사합니다.

  • 링크 - Paper

Post Training of LLMs

  • 논문 소개

PoLMs(예: OpenAI-o1/o3, DeepSeek-R1)는 추론(reasoning), 윤리(ethics), 특화된 작업(specialized tasks)에서 기존 LLM의 한계를 극복하기 위해 등장했습니다. 이 설문 조사(Survey)는 PoLMs의 발전 과정을 추적하고, 미세 조정(fine-tuning), 정렬(alignment), 추론(reasoning), 효율성(efficiency), 통합(integration) 등의 측면에서 기술을 분류하여 보다 강력하고 다재다능한 AI 개발을 위한 방향을 제시합니다.

PoLMs의 핵심 발전 영역
1. 미세 조정(Fine-tuning)

  • 기존 지도 학습(supervised learning, SL) 및 강화 학습(RL) 기반 최적화와 비교하여, PoLMs는 정책 최적화(policy optimization)를 활용하여 더 세밀한 제어가 가능
  • Self-improvement loops(자가 개선 루프) 를 통해 추론과 행동을 점진적으로 정제
  1. 정렬(Alignment) 및 윤리(Ethics)
  • LLM의 비윤리적 행동 및 바이어스 문제 해결
  • 강화 학습 기반 윤리적 행동 학습(RLHF, RL with human feedback)
  • AI가 의도치 않게 보상을 조작하는 "보상 해킹(reward hacking)" 방지 메커니즘 도입
  1. 추론(Reasoning) 및 복잡한 문제 해결
  • Chain-of-Thought(CoT), Tree-of-Thought(ToT), 검색 기반 추론(Search-Augmented Reasoning)과 결합
  • PoLMs는 강화 학습 기반 검색 최적화(Search-R1 등)와 결합하여 점진적인 문제 해결을 수행
  1. 효율성(Efficiency) 향상
  • 양자화(quantization), 가속 최적화(faster inference), 지식 증류(knowledge distillation) 등을 활용하여 모델 크기를 줄이면서도 성능 유지
  • 메모리 관리 및 연산 최적화(KV-cache reduction 등) 기술을 적극 도입
  1. 통합(Integration) 및 특화 모델(Specialized Models)
  • 특정 분야(코딩, 법률, 의료) 맞춤형 PoLMs 개발
  • 기존 AI 모델과 다양한 멀티모달 환경(vision-language-action) 에서 자연스럽게 연계될 수 있도록 설계

시사점
이 연구는 PoLMs(OpenAI-o1/o3, DeepSeek-R1 등)가 기존 LLM의 한계를 어떻게 극복하고 있는지를 보여줍니다.
특히, 강화 학습 기반의 최적화 전략을 통해 추론, 정렬, 효율성 측면에서 보다 강력하고 다목적 AI로 발전할 가능성이 큽니다.
향후 PoLMs는 보다 정밀한 정렬, 강화된 도구 사용, 그리고 실시간 적응형 AI 모델로 확장될 것으로 예상됩니다.

  • 링크 - Paper

Block Diffusion - 블록 기반 확산 모델을 활용한 새로운 언어 모델 프레임워크

  • 논문 소개

코넬 테크(Cornell Tech), 스탠퍼드(Stanford), Cohere 연구진은 Block Diffusion(BD3-LMs) 을 제안했습니다. 이는 기존의 자동회귀(AR) 모델과 이산 확산(discrete diffusion) 모델을 결합하여 병렬 토큰 샘플링 및 유연한 길이의 텍스트 생성을 가능하게 하는 새로운 프레임워크입니다.

주요 개념
자동회귀(AR) 모델 + 확산(Diffusion) 모델 결합

  • 기존 확산 언어 모델(diffusion LMs) 은 고정된 길이(fixed-length) 제한이 있으며 생성 속도가 느림
  • 반면, AR 모델은 토큰을 한 번에 하나씩 순차적으로 생성하여 속도가 제한됨
  • Block Diffusion(BD3-LMs) 은 시퀀스를 여러 블록(block)으로 나누고, 각 블록 내에서 이산 확산(discrete diffusion)을 적용한 후, 블록들을 자동회귀적으로 결합
  • 이를 통해 각 블록 내에서는 병렬 처리(parallel processing) 를 활용하고, 블록 간에는 KV 캐싱(KV caching) 을 유지하여 효율성을 극대화
    효율적이고 유연한 길이의 텍스트 생성
  • BD3-LMs은 기존 확산 모델의 고정된 크기 제한(fixed-size constraints) 을 극복
  • 훈련된 컨텍스트 크기를 초과하여, 수천 개의 토큰을 블록 단위로 점진적으로 생성 가능
  • 즉, 문장 길이에 관계없이 자연스럽게 확장할 수 있는 모델
    고확률(likelihood) 및 빠른 샘플링 속도
  • 기존 확산 언어 모델은 AR 모델보다 퍼플렉시티(perplexity)가 낮고, 많은 디노이징(denoising) 스텝을 필요로 하는 단점이 있음
  • BD3-LMs은 특수한 학습 기법(벡터화된 2-패스 전방 전달, two-pass vectorized forward pass)과 맞춤형 노이즈 스케줄링(custom noise schedule)을 도입하여, 훈련 분산을 줄이고 최신 이산 확산 모델 중 가장 낮은 퍼플렉시티를 달성
    블록 크기 조정: 성능과 속도의 균형
  • 블록 크기를 조정하면 성능과 계산 비용 간의 균형을 맞출 수 있음
  • 작은 블록(예: 4개 토큰)
    • 병렬 샘플링 속도 향상
    • 전체 블록 생성 스텝(step) 증가
  • 큰 블록(예: 16개 토큰)
    • 총 생성 스텝 감소
    • 샘플링 속도는 향상되지만 변동성(variance) 증가
  • 논문에서는 작업별 성능 목표 및 컴퓨팅 예산에 따라 블록 크기를 조정하는 방법을 분석
    오픈소스 및 일반화 가능성
  • 연구진은 코드, 모델 가중치, 블로그 예제 등을 공개
  • 기존 Masked Diffusion 프레임워크를 기반으로 구축하며, 부분 자동회귀(partial autoregression)와의 연결
  • 향후 확장 방향:
    • 대화형 AI(chatbots), 코드 생성(code generation) 등 다양한 작업에 적용 가능
    • 생성 과정의 세밀한 제어(flexible controllability)를 더욱 강화할 예정

시사점
BD3-LMs은 기존 자동회귀 모델과 확산 기반 모델의 한계를 보완하면서, 병렬 샘플링과 유연한 시퀀스 길이를 지원하는 새로운 접근법입니다.
이 모델은 기존의 고정된 토큰 길이 한계를 뛰어넘고, 더 빠르고 효율적인 텍스트 생성 기술을 제공하여 미래의 대형 언어 모델 개발에 중요한 기여를 할 수 있습니다.

  • 링크 - Paper

0개의 댓글