25년 2월 3주차 논문 요약

thon·2025년 2월 25일

소개

  • 이번 주에는 여러 논문이 에이전트 기반 시스템에 관한 내용을 다루고 있습니다. Google이 발표한 AI 공동 과학자와 같은 다중 에이전트 시스템이 대표적입니다. 이 시스템은 과학 연구를 가속화하고자 설계된 것으로, 여러 특화된 에이전트를 통해 가설 생성 및 평가를 수행합니다. Sakana AI의 AI CUDA 엔지니어도 유사하게 에이전트 기반 설계를 통해 효율적인 CUDA 커널을 생산합니다.
  • Native Sparse Attention(NSA)와 MoBA와 같은 기술은 AI 모델의 연산 성능을 최적화하는 방안을 제시하고 있습니다. 둘 다 긴 컨텍스트를 처리하는 데 있어 성능을 유지하며 효율성을 높이려는 접근법을 보여줍니다. 이는 대규모언어모델(LLM)이 늘어남에 따라 연산 비용을 줄이면서 성능을 유지하려는 산업적 요구를 반영한 것으로 보입니다.
  • Inner Thinking Transformer (ITT)나 Open-Reasoner-Zero (ORZ) 같은 모델은 적은 파라미터로 효율적인 학습을 추구하며, 이는 대규모 데이터 학습 비용을 줄이면서도 높은 성능을 유지하려는 노력의 일환입니다. 이들 모델은 적은 계산 자원으로 더 나은 성능을 내기 위해 적응형 전략을 채택하고 있습니다.
  • 이러한 트렌드는 최근 AI 연구의 주요 관심사가 다중 에이전트 시스템과 연산 효율성을 크게 동반하고 있다는 것을 보여줍니다. 여러 에이전트가 협력하여 복잡한 문제를 해결하고, 연산 자원을 절약하며 최적의 성능을 얻으려는 시도가 활발하게 진행 중입니다. 이런 흐름은 대규모언어모델의 범용성과 경제성을 동시에 고려하게 만드는 동인이 되어 주고 있습니다. 특히, AI의 실제 적용 범위를 넓히고 실용성을 더하기 위해 이러한 접근방법들이 더욱 중요해질 것으로 예상됩니다.

AI Co-Scientist

  • 논문 소개

Google은 과학적 혁신을 가속화할 수 있도록 Gemini 2.0으로 구축된 다중 에이전트 AI 시스템인 AI 공동 과학자를 소개합니다. 주요 특징은 다음과 같습니다:

  • 이 AI Co-Scientist의 목표는 무엇인가요?: "과학자들이 새로운 가설과 연구 제안을 생성하고 과학 및 생물의학 발견의 속도를 가속화할 수 있도록 돕는 가상 과학 협력자" 역할을 할 수 있습니다.

  • 어떻게 구축되나요?: 과학적 방법에서 영감을 얻은 전문 에이전트의 연합을 사용합니다. 가설을 생성, 평가, 구체화할 수 있습니다. 또한 자체 개선 기능도 갖추고 있습니다.

  • 협업과 도구가 핵심입니다!: 과학자는 아이디어를 제안하거나 에이전트 시스템에서 생성된 결과물에 대한 피드백을 제공할 수 있습니다. 웹 검색 및 전문 AI 모델과 같은 도구는 응답의 품질을 향상시킵니다.

  • 계층적 다중 에이전트 시스템: AI 공동 과학자는 전문 에이전트에게 작업을 할당하는 수퍼바이저 에이전트로 구축됩니다. 이 아키텍처는 컴퓨팅을 확장하고 과학적 추론을 반복적으로 개선하는 데 도움이 됩니다.

  • 테스트 시간 컴퓨팅: AI 공동 과학자는 테스트 시간 컴퓨팅 확장을 활용하여 반복적으로 추론하고, 진화하며, 결과물을 개선합니다. 가설과 제안을 생성하고 구체화하기 위해서는 셀프 플레이, 셀프 비평, 자기 개선이 모두 중요합니다.

  • 성과?: 자기 개선은 Elo의 자동 평가 지표에 의존합니다. GPQA 다이아몬드 문제에서 "Elo 등급이 높을수록 정답 확률이 높아지는 긍정적인 상관관계가 있다"는 사실을 발견했습니다. AI 공동 과학자는 도메인 전문가가 생성한 복잡한 문제에 대해 다른 SoTA 에이전트 및 추론 모델보다 뛰어난 성능을 발휘합니다. 추론에 더 많은 시간을 할애할수록 성능이 향상되어 도움을 받지 않는 인간 전문가를 능가합니다. 전문가들은 AI 공동 과학자의 참신성과 영향력이 더 높다고 평가했습니다. 심지어 OpenAI o1과 같은 다른 모델보다 선호도가 높았습니다.

  • 논문 초록

과학적 발견은 과학자들이 엄격한 실험적 검증을 거쳐 새로운 가설을 세우는 데 달려 있습니다. 이 과정을 강화하기 위해 Gemini 2.0에 구축된 다중 에이전트 시스템인 AI 공동연구자를 도입했습니다. AI 공동연구자는 과학자가 제공한 연구 목표와 지침에 따라 사전 증거를 바탕으로 새롭고 독창적인 지식을 발견하고 입증 가능한 새로운 연구 가설과 제안을 공식화하는 데 도움을 주기 위한 것입니다. 이 시스템의 설계에는 가설 생성, 토론, 진화 접근 방식이 통합되어 있으며, 과학적 방법에서 영감을 얻고 테스트 시간 계산을 확장하여 속도를 높였습니다. 주요 기여 사항은 다음과 같습니다: (1) 유연한 컴퓨팅 확장을 위한 비동기 작업 실행 프레임워크가 포함된 다중 에이전트 아키텍처, (2) 자체 개선 가설 생성을 위한 토너먼트 진화 프로세스. 자동화된 평가는 테스트 시간 컴퓨팅의 지속적인 이점을 보여주며 가설 품질을 개선합니다. 일반적인 목적이지만, 우리는 약물 용도 변경, 새로운 표적 발견, 박테리아 진화와 항균제 내성 메커니즘 설명 등 세 가지 생물의학 분야에서 개발과 검증을 집중하고 있습니다. 약물 용도 변경의 경우, 이 시스템은 임상 적용 가능한 농도에서 시험관 내에서 종양 억제 효과를 보이는 급성 골수성 백혈병 후보물질을 포함하여 유망한 검증 결과를 가진 후보물질을 제안합니다. 새로운 표적 발견을 위해 AI 공동연구자는 인간 간 오가노이드에서 항섬유화 활성과 간세포 재생을 통해 검증된 간 섬유증에 대한 새로운 후성유전학적 표적을 제안했습니다. 마지막으로, AI 공동연구자는 박테리아 진화의 새로운 유전자 전달 메커니즘에 대한 인실리코 병행 발견을 통해 미공개 실험 결과를 요약했습니다. 이 결과는 별도의 공동 보고서에 자세히 설명되어 있으며, 생물의학 및 과학적 발견을 강화하고 AI를 활용한 과학자 시대를 열 수 있는 잠재력을 보여줍니다.

인공지능 CUDA 엔지니어

  • 논문 소개

사카나 AI는 고도로 최적화된 CUDA 커널을 생성할 수 있는 엔드투엔드 에이전트 시스템인 AI CUDA 엔지니어를 출시합니다. 주요 기여는 다음과 같습니다:

  • 이 연구가 중요한 이유: 효율적인 CUDA 커널을 작성하는 것은 인간에게는 어려운 일입니다. AI CUDA 엔지니어는 CUDA 커널을 보다 효과적으로 자동 생성하고 최적화할 수 있는 기능을 갖춘 엔드투엔드 에이전트입니다.

  • CUDA란 무엇인가요? CUDA 커널을 작성하면 고성능 AI 알고리즘을 구현하는 데 도움이 될 수 있습니다. 하지만 이를 위해서는 GPU에 대한 지식이 필요하며, 오늘날 대부분의 AI 알고리즘은 PyTorch와 같은 상위 추상화 계층으로 작성됩니다.

  • 에이전트 파이프라인: 에이전트는 PyTorch 코드를 CUDA 커널로 변환(1단계 및 2단계)한 다음 크로스오버 프롬프트와 같은 진화적 최적화(3단계)를 적용하여 "디딤돌" 커널을 재사용하는 혁신 아카이브(4단계)로 이어져 더 큰 이득을 얻을 수 있습니다.

  • 1단계: 파이토치 모듈을 함수로 변환하기 AI CUDA 엔지니어는 먼저 LLM을 사용하여 파이토치 nn.모듈을 함수형 파이토치(Functional PyTorch)로 변환합니다. 코드의 정확성도 검증합니다.

  • 2단계: Functional PyTorch를 작동하는 CUDA로 변환 에이전트는 LLM을 사용하여 기능적 PyTorch 코드를 작동하는 CUDA 커널로 변환합니다. 커널을 로드하고 수치적 정확성을 평가합니다.

  • 3단계: 진화적 CUDA 런타임 최적화 진화적 최적화 프로세스(고급 프롬프트 전략, 표준 LLM, o3-mini 및 DeepSeek-R1과 같은 추론 모델 포함)를 사용하여 최상의 CUDA 커널만 생성되도록 합니다.

  • 4단계: 혁신 아카이브 RAG는 관련 작업에서 고성능 커널을 얻는 데 사용되며, 이는 추가적인 번역 및 성능 향상을 위한 컨텍스트(디딤돌)로 제공됩니다. 이 과정에서 새로 발견한 CUDA 커널도 아카이브에 추가할 수 있습니다.

  • 커널 런타임 속도 향상: 개발팀은 AI CUDA 엔지니어가 파이토치에서 네이티브 및 컴파일된 커널보다 최대 10~100배 빠른 속도로 CUDA 커널을 발견한다고 주장합니다. 또한 전체 머신러닝 아키텍처를 최적화된 CUDA 커널로 변환할 수도 있습니다. 온라인 사용자들은 속도 향상에 대해 이의를 제기했습니다(Sakana AI가 이 문제에 대한 업데이트를 제공했습니다).

  • 성능 - AI CUDA 엔지니어는 파이토치 코드를 CUDA 커널로 강력하게 번역합니다. 90% 이상의 번역 성공률을 달성합니다.

  • 강조된 AI CUDA 엔지니어가 발견한 커널: 또 다른 주장은 AI CUDA 엔지니어가 CUDA 런타임을 강력하게 개선할 수 있다는 것입니다. 229개의 고려 대상 작업 중 81%에서 PyTorch Native 런타임보다 뛰어난 성능을 발휘합니다. 발견된 모든 CUDA 커널 중 20%는 PyTorch 구현보다 최소 두 배 이상 빠릅니다.

  • AI CUDA 엔지니어 아카이브: 팀은 17,000개 이상의 검증된 CUDA 커널 아카이브를 제공했습니다. 이 아카이브는 LLM의 다운스트림 미세 조정에 사용할 수 있습니다. 검증된 CUDA 커널을 살펴볼 수 있는 웹사이트도 있습니다.

  • 논문 초록

최근 대규모 언어 모델의 발전으로 인해 대규모 배포가 증가함에 따라 추론 시간과 에너지 수요가 계속 증가하고 있습니다. 로우레벨 코드 구현을 수동으로 최적화하는 것은 가능하지만, 알고리즘과 소프트웨어의 복잡한 상호 작용과 하드웨어 병목 현상 간의 균형을 맞추기 위해서는 고도의 전문 지식이 필요한 고된 작업입니다, 알고리즘, 소프트웨어, 하드웨어 병목현상의 복잡한 상호작용의 균형을 맞추려면 깊은 전문성이 필요합니다. 이 보고서에서는 완전 자동 쿠다 커널을 위한 최초의 포괄적인 에이전트 프레임워크 완전 자동 CUDA 커널 검색 및 최적화를 위한 최초의 포괄적인 에이전트 프레임워크를 소개합니다. 토치 코드를 CUDA 커널로 번역한 다음 반복적으로 런타임을 개선할 수 있습니다. 순차적인 단계로 작동하는 AI CUDA 엔지니어를 소개합니다. 먼저, 원시 파이토치 코드를 동등한 CUDA 커널로 변환합니다. 다음으로, 새로운 진화형 메타 제너레이터를 사용하여 새로운 진화적 메타 생성 절차를 사용하여 런타임 성능을 최적화합니다. 마지막으로 발견한 '디딤돌' 커널의 혁신 아카이브를 사용하여 새로운 작업의 향후 성능을 개선합니다. AI CUDA 엔지니어는 토치 네이티브 커널과 컴파일된 커널의 성능을 뛰어넘는 및 컴파일된 커널을 생성할 수 있습니다. 테스트한 250개의 태스크 중 AI CUDA 엔지니어는 다음을 성공적으로 최적화했습니다. 186개의 작업을 1.52배의 평균 속도 향상으로 최적화했습니다. 융합 3D 컨볼루션 또는 대각선 행렬 곱셈과 같은 작업의 경우, 토치 구현에 비해 50배 이상의 런타임 향상을 보여줍니다.이 보고서와 함께 가장 많이 발견된 커널, 발견된 모든 커널의 데이터 세트, 결과를 살펴볼 수 있는 대화형 웹페이지도 함께 공개합니다.

NSA: 하드웨어 정렬 및 네이티브 트레이닝 가능한 스파스 어텐션

  • 논문 소개

DeepSeek-AI와 공동 작업자들이 긴 문맥 언어 모델링에서 모델 성능을 유지하면서 계산 효율성을 개선하도록 설계된 새로운 스파스 어텐션 메커니즘인 네이티브 스파스 어텐션(NSA)을 소개합니다. 주요 기여 사항은 다음과 같습니다:

  • 계층적 스파스 어텐션(NSA): NSA는 거친 단위의 압축, 세분화된 토큰 선택, 슬라이딩 윈도우 메커니즘을 결합하여 글로벌 컨텍스트 인식과 로컬 정밀도의 균형을 맞춥니다.

  • 하드웨어 정렬 최적화: 텐서 코어 활용에 최적화된 블록 단위의 스파스 어텐션 메커니즘을 도입하여 메모리 대역폭 제약을 줄이고 효율성을 향상시킵니다.

  • 종단간(End-to-End) 학습 가능성: 추론에 주로 초점을 맞춘 이전의 스파스 어텐션 방법과 달리 NSA는 완전한 학습이 가능한 스파스성을 구현하여 모델 기능을 유지하면서 사전 훈련 비용을 절감합니다.
    결과 및 영향력은 다음과 같습니다:

  • 풀 어텐션보다 뛰어난 성능: NSA는 희소성에도 불구하고 일반적인 벤치마크, 긴 컨텍스트 추론, 명령어 기반 작업에서 풀 어텐션과 일치하거나 그 이상의 성능을 발휘합니다.

  • 엄청난 속도 향상: NSA는 모든 단계(디코딩, 정방향 및 역방향 통과)에서 64k 토큰 시퀀스에서 풀 어텐션 대비 최대 11.6배의 속도 향상을 달성합니다.

  • 강력한 긴 컨텍스트 성능: 64k 건초 더미 검색에서 NSA는 완벽한 정확도를 달성하여 다른 스파스 방식보다 훨씬 뛰어난 성능을 발휘합니다.

  • 향상된 연쇄 추론- 미세 조정된 NSA는 AIME 수학적 추론 작업에서 풀 어텐션을 능가하여 장거리 논리적 종속성이 개선되었음을 시사합니다.

  • 스파스 어텐션을 기본적으로 학습할 수 있게 하고 최신 하드웨어에 최적화함으로써 NSA는 매우 긴 컨텍스트를 처리하는 차세대 LLM을 위한 확장 가능한 솔루션을 제공합니다.

  • 논문 초록

긴 컨텍스트 모델링은 차세대 언어 모델에 매우 중요하지만 표준 어텐션 메커니즘의 높은 계산 비용은 상당한 계산 문제를 야기합니다. 스파스 어텐션은 모델 기능을 유지하면서 효율성을 개선할 수 있는 유망한 방향을 제시합니다. 여기에서는 효율적인 긴 컨텍스트 모델링을 달성하기 위해 알고리즘 혁신과 하드웨어에 맞춘 최적화를 통합한 네이티브 학습 가능한 스파스 어텐션 메커니즘인 NSA를 소개합니다. NSA는 동적 계층적 희소성 전략을 채택하여 거친 단위의 토큰 압축과 세분화된 토큰 선택을 결합하여 글로벌 컨텍스트 인식과 로컬 정밀도를 모두 유지합니다. (1) 최신 하드웨어에 대한 구현 최적화와 함께 산술 집약도 균형 알고리즘 설계를 통해 상당한 속도 향상을 달성하여 두 가지 주요 혁신으로 스파스 어텐션 디자인을 발전시켰습니다. (2) 엔드투엔드 학습을 지원하여 모델 성능 저하 없이 사전 학습 계산을 줄입니다. 그림 1에서 볼 수 있듯이, 실험 결과 NSA로 사전 훈련된 모델은 일반적인 벤치마크, 긴 컨텍스트 작업 및 명령어 기반 추론에서 풀 어텐션 모델을 유지하거나 능가하는 것으로 나타났습니다. 한편, NSA는 디코딩, 순방향 전파, 역방향 전파에 걸쳐 64k 길이 시퀀스에서 풀 어텐션보다 상당한 속도 향상을 달성하여 모델 수명 주기 전반에 걸쳐 효율성을 입증했습니다.

LLaDA: 대규모 언어 확산 모델

  • 논문 소개

많은 작업에서 선도적인 자동 회귀 LLM과 일치하거나 능가할 수 있는 확산 기반 접근 방식인 LLaDA를 제안합니다. 주요 특징은 다음과 같습니다:

  • 자동 회귀 우위에 대한 의문: 거의 모든 대규모 언어 모델(LLM)이 다음 토큰 예측 패러다임을 사용하지만, 저자들은 핵심 기능(확장성, 상황 내 학습, 명령어 추종)이 실제로는 자동 회귀 모델링이 아닌 일반적인 생성 원리에서 비롯된다고 제안합니다.

  • 마스크드 확산 + 트랜스포머: LLaDA는 토큰을 점진적으로 마스킹하고 트랜스포머를 학습시켜 원본 텍스트를 복구하는 방식으로 학습하는 마스크드 확산 프레임워크에 기반합니다. 이를 통해 비회귀적 생성 모델을 생성하여 표준 LLM의 왼쪽에서 오른쪽 제약 조건을 잠재적으로 해결할 수 있습니다.

  • 강력한 확장성: 2.3T 토큰(8B 파라미터)으로 학습된 LLaDA는 수학(GSM8K, MATH), 코드(HumanEval), 일반 벤치마크(MMLU) 전반에서 최고의 LLaMA 기반 LLM과 경쟁할 만한 성능을 발휘합니다. 이는 확산 패러다임이 자동 회귀 기준선과 유사하게 잘 확장된다는 것을 보여줍니다.

  • '반전의 저주'를 깨다: LLaDA는 균형 잡힌 정방향/역방향 추론을 보여주며, 반전 작업(예: 시 구절 반전)에서 GPT-4 및 기타 AR 모델보다 뛰어난 성능을 발휘합니다. 확산은 왼쪽에서 오른쪽으로 생성하도록 강제하지 않기 때문에 거꾸로 완성할 때 강력합니다.

  • 멀티턴 대화 및 명령어 준수: 감독된 미세 조정을 거친 후 LLaDA는 멀티턴 대화를 계속할 수 있습니다. 또한 채팅 기반 AR LLM과 유사한 강력한 명령어 준수와 유창함을 보여주며, 고급 LLM 특성이 반드시 자동 회귀에 의존하지 않는다는 증거입니다.

  • 논문 초록

자동 회귀 모델(ARM)은 대규모 언어 모델(LLM)의 초석으로 널리 알려져 있습니다. Lionbridge는 사전 학습 및 감독 미세 조정(SFT) 패러다임에 따라 처음부터 학습된 확산 모델인 LLaDA를 도입하여 이 개념에 도전합니다. LLaDA는 정방향 데이터 마스킹 프로세스와 역방향 프로세스를 통해 분포를 모델링하고, 바닐라 트랜스포머로 파라미터화하여 마스킹된 토큰을 예측합니다. 가능성 바운드를 최적화함으로써 확률적 추론을 위한 원칙적인 생성 접근 방식을 제공합니다. 광범위한 벤치마크에서 LLaDA는 자체적으로 구축한 ARM 기준선을 능가하는 강력한 확장성을 입증했습니다. 놀랍게도 LLaDA 8B는 컨텍스트 내 학습에서 LLaMA3 8B와 같은 강력한 LLM과 경쟁하며, SFT 이후에는 멀티턴 대화와 같은 사례 연구에서 인상적인 명령어 추종 능력을 보여줍니다. 또한 LLaDA는 반전 시 완성 과제에서 GPT-4o를 능가하는 반전의 저주를 해결했습니다. 우리의 연구 결과는 확산 모델을 ARM의 실행 가능하고 유망한 대안으로 확립하여 위에서 논의한 주요 LLM 기능이 본질적으로 ARM에 묶여 있다는 가정에 도전합니다.

SWE-Lancer: 프론티어 LLM이 실제 프리랜서 소프트웨어 엔지니어링으로 100만 달러를 벌 수 있을까요?

  • 논문 소개

OpenAI의 연구원들이 총 1백만 달러에 달하는 Upwork의 실제 프리랜서 소프트웨어 엔지니어링 작업 1,488개에 대한 LLM을 평가하는 벤치마크인 SWE-Lancer를 소개합니다. 주요 내용은 다음과 같습니다:

  • 소프트웨어 엔지니어링 자동화를 위한 새로운 벤치마크: 고립된 작업(예: 프로그램 합성, 경쟁 프로그래밍)에 초점을 맞춘 이전의 코딩 벤치마크와 달리 SWE-Lancer는 풀스택 엔지니어링 및 관리 의사결정을 테스트합니다. 모델이 코드를 작성하고 디버깅하는 개인 기여자(IC) SWE 과제와 모델이 최고의 기술 제안을 선택하는 SWE 관리자 과제를 모두 평가합니다.

  • 실제 경제적 영향: 각 작업에는 프리랜서 시장 요율을 반영하여 검증 가능한 금전적 가치가 있습니다. 보상금은 250달러의 버그 수정부터 32,000달러의 기능 구현까지 다양합니다. 이 벤치마크는 모델 성능을 수익에 매핑하여 자동화 잠재력에 대한 가시적인 지표를 제공합니다.

  • 엔드투엔드 테스트를 통한 엄격한 평가: 단위 테스트 기반 벤치마크와 달리 SWE-Lancer는 전문 엔지니어가 개발한 브라우저 중심의 3중 검증 엔드투엔드(E2E) 테스트를 사용합니다. 이러한 테스트는 실제 소프트웨어 검증을 반영하고 채점 해킹을 방지합니다.

  • 여전히 해결되지 않은 고난도 과제: 최고 성능의 모델인 Claude 3.5 Sonnet조차도 IC SWE 과제 중 26.2%, SWE 관리자 과제 중 44.9%만 해결해 오픈소스 SWE-Lancer Diamond 세트의 50.8만 달러 중 208만 달러를 벌어들입니다. 이는 현재의 AI 역량과 인간 소프트웨어 엔지니어 간의 격차를 잘 보여줍니다.
    LLM 성능에 대한 주요 결과

  • 테스트 시간 계산으로 정확도 향상: 추론 시간 추론이 증가하면 특히 고가치 작업에서 성공률이 향상됩니다.

  • IC 코딩보다 관리 작업이 더 쉬움: 모델은 원본 코드를 작성하는 것보다 제안을 선택하는 데 더 효과적입니다.

  • 효과적인 도구 사용의 중요성: 더 강력한 모델은 대화형 사용자 도구를 활용하여 엔지니어가 코드를 반복하는 방식을 모방하여 문제를 디버깅합니다.

  • 로컬라이제이션과 근본 원인 분석의 차이: LLM은 결함이 있는 코드를 정확히 찾아낼 수 있지만 포괄적인 수정 사항을 구현하지 못하는 경우가 많습니다.

  • 논문 초록

Upwork의 1,400개 이상의 프리랜서 소프트웨어 엔지니어링 작업을 벤치마킹하여 실제 지급액으로 총 100만 달러에 달하는 SWE-Lancer를 소개합니다. SWE-Lancer는 50달러의 버그 수정부터 32,000달러의 기능 구현까지 다양한 독립 엔지니어링 작업과 기술 구현 제안 중에서 모델을 선택하는 관리 작업을 모두 포함합니다. 독립 작업은 숙련된 소프트웨어 엔지니어가 세 차례에 걸쳐 검증한 엔드투엔드 테스트를 통해 등급을 매기고, 관리 작업은 원래 고용된 엔지니어링 관리자의 선택에 따라 평가합니다. 모델 성능을 평가한 결과, 프론티어 모델이 여전히 대부분의 과제를 해결하지 못하는 것으로 나타났습니다. 향후 연구를 용이하게 하기 위해 통합된 Docker 이미지와 공개 평가 분할인 SWE-Lancer Diamond(GitHub - openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?")를 오픈소스로 공개합니다. 모델 성능을 금전적 가치에 매핑함으로써, SWE-Lancer가 AI 모델 개발의 경제적 영향에 대한 더 많은 연구를 가능하게 할 것으로 기대합니다.

복합 AI 시스템을 위한 모델 선택 최적화

  • 논문 소개

Microsoft Research의 연구원 및 협력자들이 모든 곳에서 하나의 LLM을 사용하는 대신 모듈별로 최적의 모델을 선택하여 다중 호출 LLM 파이프라인을 개선하는 프레임워크인 LLMSelector를 소개합니다. 주요 인사이트는 다음과 같습니다:

  • 모듈별 모델 선택으로 큰 성능 향상: 저자들은 복합 시스템에서 각 하위 작업에 대해 단일 LLM에 의존하는 대신 다양한 LLM을 혼합하면 정확도가 5%~70% 향상될 수 있음을 보여줍니다. 각 모델에는 고유한 강점(예: 생성에 비해 비평에 더 우수)이 있으므로 모듈을 선택적으로 할당하면 엔드투엔드 결과를 크게 개선할 수 있습니다.

  • LLMSelector 알고리즘: 모듈별 성능을 추정하는 새로운 'LLM 진단기'의 안내에 따라 각 모듈에 최적의 모델을 할당하는 반복적인 루틴을 제안합니다. 이 절차는 모듈 수에 따라 선형적으로 확장되므로 전수 검색보다 훨씬 효율적입니다.

  • 단조로움에 대한 인사이트: 경험적으로, 다른 모듈은 고정된 상태에서 단일 모듈의 성능을 향상시키면 전체 시스템이 개선되는 경우가 많습니다. 이는 근사 인수분해 접근법의 동기를 부여하며, 여기서 국소적인 개선이 전체적인 개선으로 이어집니다.

  • LLMSelector는 모듈이 고정된 모든 정적 복합 시스템(예: 발전기-비평기-정제기)에서 작동합니다.

  • 논문 초록

셀프 리파인 및 다중 에이전트 토론과 같은 여러 LLM 호출을 결합한 복합 AI 시스템은 많은 AI 작업에서 강력한 성능을 발휘합니다. 복합 시스템을 최적화하는 데 있어 핵심적인 질문인 시스템의 각 LLM 호출 또는 모듈에 대해 어떤 LLM을 사용할지 어떻게 결정해야 할까요? 이러한 LLM 선택이 품질에 큰 영향을 미치지만 검색 공간은 기하급수적으로 증가한다는 것을 보여줍니다. 저희는 복합 시스템에서 모델 선택을 위한 효율적인 프레임워크인 LLMSelector를 제안하며, 이 프레임워크는 두 가지 주요 경험적 인사이트를 활용합니다. (i) 엔드투엔드 성능은 다른 모든 모듈이 고정된 상태에서 각 모듈의 성능이 단조로운 경우가 많고, (ii) 모듈별 성능은 LLM으로 정확하게 추정할 수 있다는 점입니다. 이러한 인사이트를 바탕으로 LLMSelector는 더 이상 이득이 없을 때까지 하나의 모듈을 반복적으로 선택하고 LLM이 추정하는 모듈별 성능이 가장 높은 모델을 해당 모듈에 할당합니다. LLMSelector는 모듈 수가 제한된 모든 복합 시스템에 적용할 수 있으며, 모듈 수에 따라 API 호출 수가 선형적으로 확장되므로 경험적으로나 이론적으로 고품질 모델 할당을 달성할 수 있습니다. GPT-4o, Claude 3.5 Sonnet, Gemini 1.5와 같은 LLM을 사용하여 다중 에이전트 토론 및 자체 재조정과 같은 널리 사용되는 복합 시스템을 실험한 결과, LLMSelector는 모든 모듈에 동일한 LLM을 사용하는 것보다 5%-70%의 정확도 향상을 가져다주는 것으로 나타났습니다.

ORZ: Open-Reasoner-Zero

  • 논문 소개

오픈-리서처-제로(ORZ)는 추론 기능을 향상시키는 오픈소스 대규모 미니멀리즘 강화 학습(RL) 프레임워크입니다. ORZ는 딥시크-R1-Zero-Qwen-32B의 1/30의 학습 단계만 거치면 GPQA Diamond보다 뛰어난 성능을 발휘하는 상당한 확장성을 보여줍니다. 주요 기여 및 연구 결과는 다음과 같습니다:

  • 미니멀리스트 RL 학습 작동: 기존 RLHF 설정과 달리 ORZ는 KL 정규화를 제거하고 GAE(λ=1, γ=1)와 간단한 규칙 기반 보상 기능을 갖춘 바닐라 PPO를 사용해 응답 길이와 추론 정확도를 모두 확장합니다.

  • 오픈 소스 모델보다 뛰어난 성능: ORZ-32B는 훨씬 적은 학습 단계를 사용하면서도 GPQA Diamond에서 DeepSeek-R1-Zero-Qwen-32B를 능가하여 간소화된 RL 파이프라인으로 학습 효율성을 대폭 향상시킬 수 있음을 입증했습니다.

  • 긴급 추론 능력: ORZ는 응답 길이와 정확도가 갑자기 증가하는 '스텝 모멘트'를 나타내며, 이는 지속적인 학습을 통해 긴급 추론 능력이 향상되었음을 나타냅니다.

  • 대규모 확장 가능성: ORZ의 응답 길이 확장성은 DeepSeek-R1-Zero(671B MoE)에서 나타난 추세를 반영하지만 학습 단계는 5.8배 더 적습니다. 학습은 포화 상태의 징후를 보이지 않으며, 지속적인 확장을 통해 더 많은 이득을 얻을 수 있음을 암시합니다.

  • 완전한 오픈소스: 학습 코드, 모델 가중치, 데이터, 하이퍼파라미터가 모두 공개되어 재현성을 보장하고 연구 커뮤니티에서 더 폭넓게 채택할 수 있습니다.

  • 수학적 및 논리적 추론: ORZ는 정답의 정확성만을 평가하는 간단한 이진 보상 시스템을 통해 MATH500, AIME2024, AIME2025와 같은 벤치마크에서 정확도를 크게 향상시킵니다.

  • 일반화: 인스트럭션 튜닝 없이도 ORZ-32B는 MMLU_PRO에서 Qwen2.5-32B Instruct보다 성능이 뛰어나며, 순수하게 RL로만 학습되었음에도 강력한 추론 일반화를 보여줍니다.

  • 논문 초록

확장성, 단순성, 접근성에 중점을 둔 대규모 추론 중심 RL 훈련의 첫 번째 오픈 소스 구현인 Open-Reasoner-Zero를 소개합니다. 광범위한 실험을 통해 최소한의 접근 방식인 GAE(𝜆 = 1, 𝛾 = 1)와 KL 정규화 없이 간단한 규칙 기반 보상 함수를 사용하는 바닐라 PPO만으로도 추론 작업에서 응답 길이와 벤치마크 성능을 모두 확장할 수 있으며, 이는 DeepSeek-R1-Zero에서 관찰되는 현상과 유사하다는 것을 입증했습니다. 특히, 우리의 구현은 훈련 단계가 1/30밖에 필요하지 않으면서도 GPQA 다이아몬드 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B보다 성능이 뛰어납니다. 오픈 소스의 정신에 따라 소스 코드, 매개변수 설정, 학습 데이터, 모델 가중치를 공개합니다.

MoBA: 긴 컨텍스트 LLM에 대한 블록 어텐션의 혼합

  • 논문 소개

MoBA는 강력한 성능을 유지하면서 LLM의 긴 컨텍스트 시퀀스를 처리하는 효율성을 향상시키는 새로운 어텐션 메커니즘입니다. 주요 인사이트는 다음과 같습니다: - 긴 컨텍스트를 위한 적응형 어텐션: MoBA는 어텐션 메커니즘에 전문가 혼합(MoE) 패러다임을 적용하여 각 쿼리 토큰이 전체 컨텍스트가 아닌 가장 관련성이 높은 키-값 블록에 선택적으로 어텐션할 수 있도록 합니다. 이를 통해 모델은 확장된 시퀀스를 효율적으로 처리할 수 있습니다.

  • 전체 어텐션과 희소 어텐션 간의 원활한 전환: 슬라이딩 윈도우나 싱크 어텐션과 같은 정적인 희소 어텐션 방식과 달리, MoBA는 전체 어텐션과 희소 어텐션 모드 간에 동적으로 전환할 수 있어 일반화를 희생하지 않고 적응성을 보장합니다.

  • 향상된 계산 효율성: MoBA는 시퀀스를 블록으로 분할하고 게이팅 메커니즘을 사용하여 쿼리를 라우팅함으로써 계산 복잡성을 크게 줄여 프리필에서 플래시어텐션보다 최대 6.5배의 속도 향상을 달성하고 계산 시간을 16배 단축하여 10M 토큰까지 효율적으로 확장할 수 있습니다.

  • 풀 어텐션과 비교 가능한 성능: 광범위한 실험을 통해 MoBA는 높은 희소성 수준(~95.31%)에서도 언어 모델링 손실 및 벤치마크 성능을 풀 어텐션과 거의 동일하게 달성하는 것으로 나타났습니다. 건초더미 속 바늘 찾기나 RULER@128K와 같은 긴 컨텍스트 벤치마크에서 풀 어텐션과 일치합니다.

  • 하이브리드 MoBA-풀 어텐션 전략: MoBA는 표준 Transformer와 유연하게 통합할 수 있어 레이어별 하이브리드화(서로 다른 레이어에서 MoBA와 풀 어텐션을 혼합)가 가능하므로 감독 미세 조정(SFT) 안정성과 긴 컨텍스트 유지가 향상됩니다.

  • 논문 초록

대규모 언어 모델(LLM)을 인공 일반 지능(AGI)으로 발전시키기 위해서는 효과적인 문맥 길이를 확장하는 것이 필수적입니다. 그러나 기존의 주의 메커니즘에 내재된 계산 복잡성의 4제곱 증가는 엄청난 오버헤드를 초래합니다. 기존의 접근 방식은 작업에 따라 싱크 또는 창 주의와 같이 강하게 편향된 구조를 적용하거나 주의 메커니즘을 선형 근사치로 근본적으로 수정하여 복합 추론 작업에서의 성능이 제대로 탐구되지 않은 채로 남아 있습니다. 이 연구에서는 미리 정의된 편향을 도입하는 대신 모델이 자율적으로 주의를 기울일 위치를 결정할 수 있도록 '덜 구조화' 원칙을 준수하는 솔루션을 제안합니다. 저희는 전문가 혼합(MoE)의 원리를 주의 메커니즘에 적용하는 혁신적인 접근 방식인 블록 주의 혼합(MoBA)을 도입했습니다. 이 새로운 아키텍처는 긴 컨텍스트 작업에서 우수한 성능을 발휘하는 동시에 전체 주의와 희소 주의 사이를 원활하게 전환하여 성능 저하 위험 없이 효율성을 향상시킬 수 있는 핵심적인 이점을 제공합니다. MoBA는 이미 Kimi의 긴 컨텍스트 요청을 지원하기 위해 배포되었으며, LLM의 효율적인 주의 계산에서 상당한 발전을 보여줍니다. 코드는 GitHub - MoonshotAI/MoBA: MoBA: Mixture of Block Attention for Long-Context LLMs 에서 확인할 수 있습니다.

지나친 생각의 위험성: 에이전트 작업에서의 추론-행동 딜레마 살펴보기

  • 논문 소개

이 논문에서는 모델이 환경과의 상호작용보다 확장된 내부 추론을 우선시하는 현상인 대규모 추론 모델(LRM)의 과잉 사고에 대해 조사합니다. 이 연구는 4,018개의 소프트웨어 엔지니어링 작업 궤적을 분석하여 추론 모델이 에이전트 환경에서 의사 결정을 처리하는 방식을 이해합니다. 주요 결과는 다음과 같습니다:

  • 과잉 사고는 작업 성과를 떨어뜨린다: 과잉 사고 점수가 높을수록(실제 피드백보다 내부 추론을 선호할수록) 특히 추론에 최적화된 모델에서 문제 해결률이 낮아집니다. 과잉 사고 점수가 가장 낮은 솔루션을 선택하는 것과 같은 간단한 개입으로 성능을 30% 개선하는 동시에 컴퓨팅 비용을 43% 절감할 수 있습니다.

  • 세 가지 실패 패턴 확인: 이 연구에서는 과잉 사고를 다음과 같이 분류했습니다:

    • 분석 마비(실행 없는 과도한 계획),
    • 불량 행동(피드백을 기다리지 않고 여러 단계를 실행), 그리고
    • 조기 이탈(내부 가정에 기반한 작업 포기): 이러한 행동은 모델이 추론의 깊이와 실행 가능한 결정의 균형을 맞추기 위해 고군분투하는 이유를 설명합니다.
  • 추론 모델은 과잉 사고에 더 취약함: 비추론 모델에 비해 LRM은 뛰어난 추론 능력에도 불구하고 평균적으로 과잉 사고 점수가 3배 더 높습니다.

  • 함수 호출로 과잉 사고 완화: 기본 함수 호출을 지원하는 모델은 과잉 사고 점수가 현저히 낮아 구조화된 실행 경로가 에이전트 환경의 효율성을 개선한다는 것을 시사합니다.

  • 확장 및 완화 전략: 연구진은 강력한 추론 능력을 유지하면서 과잉 사고를 억제하기 위해 강화 학습 조정 및 함수 호출 최적화를 제안합니다.

  • 논문 초록

대규모 추론 모델(LRM)은 AI 문제 해결 능력에 있어 획기적인 발전이지만 대화형 환경에서는 그 효과가 제한적일 수 있습니다. 이 논문에서는 LRM의 오버씽킹에 대해 소개하고 분석합니다. 모델이 환경과의 상호작용보다 확장된 내부 추론 사슬을 선호하는 현상입니다. SWE Bench Verified를 사용한 소프트웨어 엔지니어링 작업 실험을 통해 세 가지 반복되는 패턴을 관찰합니다: 분석 마비, 불량 행동, 조기 이탈. 이러한 행동을 연구하기 위한 프레임워크를 제안하고, 이를 전문가 평가와 연관시켜 4018개의 궤적을 분석합니다. 분석 결과, 추론 모델이 비추론 모델에 비해 과잉사고 점수가 높을수록 성과 저하와 상관관계가 있으며, 추론 모델이 과잉사고 경향이 더 강한 것으로 나타났습니다. 분석 결과, 에이전트 환경에서 과잉 사고 점수가 낮은 솔루션을 선택하는 등 과잉 사고를 완화하기 위한 간단한 노력만으로도 모델 성능을 30% 가까이 향상시키면서 계산 비용을 43%까지 줄일 수 있는 것으로 나타났습니다. 이러한 결과는 오버씽킹을 완화하는 것이 실질적인 의미가 있음을 시사합니다. 기본 함수 호출 기능과 선택적 강화 학습을 활용하면 과잉 사고 경향을 완화할 수 있습니다. 또한 이러한 방향의 연구를 촉진하기 위해 평가 프레임워크와 데이터 세트를 오픈소스(GitHub - AlexCuadron/ThinkingAgent: Systematic evaluation framework that automatically rates overthinking behavior in large language models.)로 공개하고 있습니다.

내적 사고 트랜스포머(ITT): 동적 뎁스 스케일링을 활용하여 적응형 내적 사고 촉진하기

  • 논문 소개

내부 사고 트랜스포머(ITT, Inner Thinking Transformers)는 동적 깊이 확장을 통해 소규모 LLM의 추론 효율성을 향상시키는 새로운 방법입니다. ITT는 모델 크기를 확장하지 않고도 확장 가능한 추론 효율성을 제공함으로써 LLM의 매개변수 병목 현상을 완화하는 것을 목표로 합니다. 주요 기여는 다음과 같습니다:

  • 적응형 토큰 처리: ITT는 적응형 토큰 라우팅을 사용해 복잡한 토큰에 추가 계산을 동적으로 할당합니다. 이를 통해 모델은 어려운 추론 단계에 집중하는 동시에 간단한 토큰을 효율적으로 처리할 수 있습니다.

  • 잔여 사고 연결(RTC): 새로운 잔여 축적 메커니즘이 토큰 표현을 반복적으로 개선하여 매개변수를 늘리지 않고도 모델이 스스로 수정할 수 있도록 합니다.

  • 추가 매개변수 없이 테스트 시간 확장: ITT는 162만 개의 매개변수만으로 466M Transformer 정확도의 96.5%를 달성하여 11개 벤치마크에서 루프 기반 대안보다 성능이 뛰어나면서도 학습 데이터 필요량을 43.2% 줄였습니다.

  • 탄력적 심층 사고: ITT는 추론 시 계산을 유연하게 확장할 수 있어 정확도와 효율성 사이에서 동적으로 최적화할 수 있습니다.

  • 논문 초록

LLM(대규모 언어 모델)은 특히 복잡한 추론이 필요한 중요한 토큰을 처리할 때 매개변수 제약 조건 하에서 내재적인 성능 병목현상에 직면합니다. 경험적 분석에 따르면 까다로운 토큰은 계층 간에 갑작스러운 기울기 급증을 유발하여 표준 트랜스포머의 아키텍처 스트레스 지점을 노출시킵니다. 이러한 인사이트를 바탕으로 계층 계산을 암묵적 사고 단계로 재구상하는 이너씽킹 트랜스포머(ITT)를 제안합니다. ITT는 적응형 토큰 라우팅을 통해 계산을 동적으로 할당하고, 잔여 사고 연결을 통해 표현을 반복적으로 개선하며, 사고 단계 인코딩을 사용해 추론 단계를 구분합니다. ITT는 매개변수 확장 없이 중요한 토큰을 더 심층적으로 처리할 수 있게 해줍니다. 162M-466M 파라미터 모델에 대한 평가 결과, ITT는 162M 파라미터만을 사용해 466M 트랜스포머의 96.5% 성능을 달성하고 학습 데이터를 43.2% 줄이며 11개 벤치마크에서 트랜스포머/루프 변형보다 뛰어난 성능을 보였습니다. 추론 중에 탄력적인 계산 할당을 가능하게 함으로써 ITT는 암시적 사고 경로의 아키텍처 인식 최적화를 통해 성능과 효율성의 균형을 맞춥니다.

0개의 댓글