Coding like a cat :)
로그인
Coding like a cat :)
로그인
The 2025 AI Index Report
Sean
·
2025년 5월 8일
팔로우
0
AI
목록 보기
1/1
스탠포드 AI 인덱스 리포트
Top Takeaways
Technical Performance
2024년 AI 성능 개요
전통적 벤치마크(MMLU, SQuAD 등) 대부분에서 인간 기준 초과
GPQA, MMMU 등 고난이도 벤치마크 성능도 빠르게 향상
Open vs Closed 모델 간 격차 축소 (Llama3.1, DeepSeek 등 등장)
중국 모델 vs 미국 모델 간 성능 격차도 빠르게 감소 중
소형 모델의 고성능화 (ex. Phi-3 Mini, 3.8B 파라미터로 MMLU 60% 돌파)
선두 모델 간 Elo 점수 격차 축소 → “기술 우위의 평준화”
Language
GPT-4o, Claude 3.5, Gemini 등 멀티모달 언어 처리 능력 확보
MMLU/MMLU-Pro에서 GPT 기반 모델이 인간 성능 초과
WildBench, Arena-Hard-Auto, MixEval 등 실전 기반 벤치마크 확산
Inference-time compute 기반 모델(o1, o3)이 복잡 추론 성능 향상
RAG 성능 개선과 MTEB 기반 임베딩 정확도 상승
장문 문맥 처리(32K~128K 이상)에 대한 평가 필요성 증가 (RULER, HELMET)
Image and Video
VCR 벤치마크에서 AI가 처음으로 인간 기준 도달 (85%)
MVBench를 통해 시간 축 포함 영상 이해 능력 평가 강화
Midjourney 등 이미지 생성 품질은 2022년→2025년 비약적 발전
Sora, Veo 2, MovieGen 등 20초 이상 고해상도 비디오 생성 가능
Vision Arena 등 사용자 기반 이미지 생성 선호도 평가 증가
Speech
Whisper-Flamingo: LRS2 벤치마크에서 WER 1.3% 달성
ASR 기술 포화 임박 → 향후 연구는 음성 합성 및 멀티모달 연계로 확장
입술 읽기(lip reading), 발화자 인식 등 오디오 기반 이해도 향상
향후 과제: 실시간 다중화자 대화 인식 및 음성 생성 품질 개선
Coding
HumanEval 벤치마크에서 100% 점수 달성 (Claude 3.5 Sonnet)
SWE-bench(실제 GitHub 이슈 기반): o3 모델이 71.7% 해결
BigCodeBench: 139개 라이브러리, 1140개 task → 최고 성능 35.5% (Hard Set)
Chatbot Arena Coding 부문: Gemini-Exp-1206이 최상위
복잡한 실전 코딩 작업에서 여전히 인간 대비 격차 존재
Math
GSM8K, MATH 등 기존 벤치마크는 사실상 포화 단계 (97.7%, 97.9%)
Chatbot Arena의 Math 부문에서는 o1 계열이 최고 점수 기록
FrontierMath: 수학 고차원 이론 문제에서도 o3가 25.2% 해결
DeepMind의 AlphaProof, AlphaGeometry는 IMO 문제도 해결
수학 분야에서도 향후 초고난도 창의 문제로 평가 지표 이동 중
Reasoning
MMMU: 멀티모달·다학문적 추론 능력 평가
→ OpenAI o1 모델이 78.2% 정확도 기록 (전년 대비 +18.8%p 향상)
GPQA: 전문가 수준의 문제 해결력 평가
→ o3 모델이 87.7%, 인간 전문가 기준(81.2%) 초월
ARC-AGI: 범용 추론 능력 테스트
→ OpenAI o3, 75.7%, 고연산 설정 시 87.5%까지
HLE (Humanity’s Last Exam): 기존 LLM이 풀 수 없는 난이도의 문항만 구성
→ 최고 성능도 8.8%
PlanBench: 블록 이동 시나리오 기반 계획 능력 평가
→ o1이 97.8%, GPT-4o 대비 2.75배 이상 성능
전반적으로 추론(reasoning)은 AI의 일반화 능력, 계획 수립 능력, 복합 문제 해결 능력의 핵심 요소
AI agents
VisualAgentBench (VAB): 다양한 환경(가정, 게임, 웹UI, 시각 디자인)에서 에이전트 성능 평가
GPT-4o가 36.2%로 최고 성능, 대부분의 모델은 20% 이하 성능에 머무름
RE-Bench: ML 연구 환경(커널 최적화, 모델 튜닝 등)에서의 R&D 능력 평가
2시간 제한에서는 AI가 인간보다 4배 높은 점수, 32시간 이상에서는 인간이 2배 뛰어남
일부 작업(예: Triton 커널 생성)은 AI가 속도·비용 면에서 우수
GAIA: 도구 사용, 웹 검색, 멀티모달 처리 등 종합적 문제 해결 능력 평가
GPT-4+Plugin(2023년)은 15%, 최신 모델은 65.1%로 30%p 향상
복합 reasoning + 실시간 탐색 + 멀티모달 처리의 통합 역량 테스트
전반적 평가
AI agents는 단순 LLM을 넘어 도구 사용, 환경 탐색, 문제 해결 능력을 통합하는 기술로 급부상
여전히 높은 실패율 존재하나, R&D·웹 탐색 등 일부 영역에서 인간 수준 접근 중
Robotics and Autonomous Motion
RLBench: 대표적인 로봇 조작 벤치마크에서 최신 모델 SAM2Act가 86.8% 성공률 달성
휴머노이드 로봇: Figure 02(2024), Optimus(Tesla), Atlas(Boston Dynamics) 등 등장
DeepMind 혁신
AutoRT: 로봇용 데이터 77,000건 생성
SARA-RT: 트랜스포머 처리 속도 개선
ALOHA: 셔츠 걸기·신발끈 묶기 등 고난도 손동작 학습
DemoStart: 소수 샘플만으로 복잡 행동 학습 → 탁구에서 인간 수준 성능 도달
로보틱스 파운데이션 모델
Nvidia(GR00T), Covariant(RFM-1) 범용 로봇용 모델 발표 → 언어+동작 통합 가능
자율주행차 상용화
Waymo, 미국 4개 도시에서 상용 서비스 운영 중 (주당 15만 건 탑승)
중국의 Apollo Go, Pony.AI 등도 확장 중
자율주행 안전성
Waymo는 인간 운전자 대비 최대 88% 사고 감소
보험사 Swiss Re 분석 결과, 부상·재산피해 모두 대폭 감소
Sean
기술과 비즈니스를 잇는 파트너가 되고자 합니다.
팔로우
0개의 댓글
댓글 작성