The 2025 AI Index Report

Sean·2025년 5월 8일

AI

목록 보기
1/1

스탠포드 AI 인덱스 리포트

Top Takeaways

Technical Performance

  • 2024년 AI 성능 개요
    • 전통적 벤치마크(MMLU, SQuAD 등) 대부분에서 인간 기준 초과
    • GPQA, MMMU 등 고난이도 벤치마크 성능도 빠르게 향상
    • Open vs Closed 모델 간 격차 축소 (Llama3.1, DeepSeek 등 등장)
    • 중국 모델 vs 미국 모델 간 성능 격차도 빠르게 감소 중
    • 소형 모델의 고성능화 (ex. Phi-3 Mini, 3.8B 파라미터로 MMLU 60% 돌파)
    • 선두 모델 간 Elo 점수 격차 축소 → “기술 우위의 평준화”
  • Language
    • GPT-4o, Claude 3.5, Gemini 등 멀티모달 언어 처리 능력 확보
    • MMLU/MMLU-Pro에서 GPT 기반 모델이 인간 성능 초과
    • WildBench, Arena-Hard-Auto, MixEval 등 실전 기반 벤치마크 확산
    • Inference-time compute 기반 모델(o1, o3)이 복잡 추론 성능 향상
    • RAG 성능 개선과 MTEB 기반 임베딩 정확도 상승
    • 장문 문맥 처리(32K~128K 이상)에 대한 평가 필요성 증가 (RULER, HELMET)
  • Image and Video
    • VCR 벤치마크에서 AI가 처음으로 인간 기준 도달 (85%)
    • MVBench를 통해 시간 축 포함 영상 이해 능력 평가 강화
    • Midjourney 등 이미지 생성 품질은 2022년→2025년 비약적 발전
    • Sora, Veo 2, MovieGen 등 20초 이상 고해상도 비디오 생성 가능
    • Vision Arena 등 사용자 기반 이미지 생성 선호도 평가 증가
  • Speech
    • Whisper-Flamingo: LRS2 벤치마크에서 WER 1.3% 달성
    • ASR 기술 포화 임박 → 향후 연구는 음성 합성 및 멀티모달 연계로 확장
    • 입술 읽기(lip reading), 발화자 인식 등 오디오 기반 이해도 향상
    • 향후 과제: 실시간 다중화자 대화 인식 및 음성 생성 품질 개선
  • Coding
    • HumanEval 벤치마크에서 100% 점수 달성 (Claude 3.5 Sonnet)
    • SWE-bench(실제 GitHub 이슈 기반): o3 모델이 71.7% 해결
    • BigCodeBench: 139개 라이브러리, 1140개 task → 최고 성능 35.5% (Hard Set)
    • Chatbot Arena Coding 부문: Gemini-Exp-1206이 최상위
    • 복잡한 실전 코딩 작업에서 여전히 인간 대비 격차 존재
  • Math
    • GSM8K, MATH 등 기존 벤치마크는 사실상 포화 단계 (97.7%, 97.9%)
    • Chatbot Arena의 Math 부문에서는 o1 계열이 최고 점수 기록
    • FrontierMath: 수학 고차원 이론 문제에서도 o3가 25.2% 해결
    • DeepMind의 AlphaProof, AlphaGeometry는 IMO 문제도 해결
    • 수학 분야에서도 향후 초고난도 창의 문제로 평가 지표 이동 중
  • Reasoning
    • MMMU: 멀티모달·다학문적 추론 능력 평가
      → OpenAI o1 모델이 78.2% 정확도 기록 (전년 대비 +18.8%p 향상)
    • GPQA: 전문가 수준의 문제 해결력 평가
      → o3 모델이 87.7%, 인간 전문가 기준(81.2%) 초월
    • ARC-AGI: 범용 추론 능력 테스트
      → OpenAI o3, 75.7%, 고연산 설정 시 87.5%까지
    • HLE (Humanity’s Last Exam): 기존 LLM이 풀 수 없는 난이도의 문항만 구성
      → 최고 성능도 8.8%
    • PlanBench: 블록 이동 시나리오 기반 계획 능력 평가
      → o1이 97.8%, GPT-4o 대비 2.75배 이상 성능
    • 전반적으로 추론(reasoning)은 AI의 일반화 능력, 계획 수립 능력, 복합 문제 해결 능력의 핵심 요소
  • AI agents
    • VisualAgentBench (VAB): 다양한 환경(가정, 게임, 웹UI, 시각 디자인)에서 에이전트 성능 평가
      • GPT-4o가 36.2%로 최고 성능, 대부분의 모델은 20% 이하 성능에 머무름
    • RE-Bench: ML 연구 환경(커널 최적화, 모델 튜닝 등)에서의 R&D 능력 평가
      • 2시간 제한에서는 AI가 인간보다 4배 높은 점수, 32시간 이상에서는 인간이 2배 뛰어남
      • 일부 작업(예: Triton 커널 생성)은 AI가 속도·비용 면에서 우수
    • GAIA: 도구 사용, 웹 검색, 멀티모달 처리 등 종합적 문제 해결 능력 평가
      • GPT-4+Plugin(2023년)은 15%, 최신 모델은 65.1%로 30%p 향상
      • 복합 reasoning + 실시간 탐색 + 멀티모달 처리의 통합 역량 테스트
    • 전반적 평가
      • AI agents는 단순 LLM을 넘어 도구 사용, 환경 탐색, 문제 해결 능력을 통합하는 기술로 급부상
      • 여전히 높은 실패율 존재하나, R&D·웹 탐색 등 일부 영역에서 인간 수준 접근 중
  • Robotics and Autonomous Motion
    • RLBench: 대표적인 로봇 조작 벤치마크에서 최신 모델 SAM2Act가 86.8% 성공률 달성
    • 휴머노이드 로봇: Figure 02(2024), Optimus(Tesla), Atlas(Boston Dynamics) 등 등장
    • DeepMind 혁신
      • AutoRT: 로봇용 데이터 77,000건 생성
      • SARA-RT: 트랜스포머 처리 속도 개선
      • ALOHA: 셔츠 걸기·신발끈 묶기 등 고난도 손동작 학습
      • DemoStart: 소수 샘플만으로 복잡 행동 학습 → 탁구에서 인간 수준 성능 도달
    • 로보틱스 파운데이션 모델
      • Nvidia(GR00T), Covariant(RFM-1) 범용 로봇용 모델 발표 → 언어+동작 통합 가능
    • 자율주행차 상용화
      • Waymo, 미국 4개 도시에서 상용 서비스 운영 중 (주당 15만 건 탑승)
      • 중국의 Apollo Go, Pony.AI 등도 확장 중
    • 자율주행 안전성
      • Waymo는 인간 운전자 대비 최대 88% 사고 감소
      • 보험사 Swiss Re 분석 결과, 부상·재산피해 모두 대폭 감소
profile
기술과 비즈니스를 잇는 파트너가 되고자 합니다.

0개의 댓글