[HAI] AI Index Report 2026 정리: 기술은 가속하고, 시스템은 뒤따라가기 바쁘다

서쿠·2026년 4월 20일

링크: https://hai.stanford.edu/ai-index/2026-ai-index-report

Stanford HAI(Human-Centered AI Institute)가 매년 발간하는 AI Index Report는 AI 분야에서 가장 신뢰받는 독립 연감 중 하나입니다. 2026년판은 아홉 번째 에디션이며, 423페이지에 걸쳐 R&D, 기술 성능, Responsible AI, 경제, 과학, 의료, 교육, 정책, 여론까지 9개 챕터를 다룹니다. 올해 처음 추가된 챕터는 AI for Science(과학)와 AI in Medicine(의료) 두 개입니다.

공동의장 Yolanda Gil(USC)과 Raymond Perrault(SRI International)가 서문에서 강조한 핵심 메시지는 단순합니다. AI의 기술적 역량이 진보하는 속도와, 이를 관리·평가·교육·규제하기 위한 사회 시스템이 따라가는 속도 사이에 뚜렷한 간극이 생기고 있다는 것입니다. Governance 프레임워크, 평가 방법론, 교육 체계, 데이터 인프라 모두 기술 자체의 속도를 따라잡지 못하고 있다는 진단이 모든 챕터를 관통합니다.

이 글은 9개 챕터를 모두 다루며, 각 챕터에서 ML·DS 실무자가 알아야 할 수치와 함의를 정리합니다.

1. 2026년을 관통하는 15개 Top Takeaway

리포트는 본문에 앞서 15개의 최상위 takeaway를 제시합니다.

AI 역량은 정체되고 있지 않습니다. 2025년 주목할 만한 frontier model의 90% 이상을 산업계가 생산했고, PhD 수준의 과학 질문, 멀티모달 추론, 경쟁 수학에서 human baseline을 맞추거나 넘어서는 모델이 다수 등장했습니다. 대표적인 코딩 벤치마크인 SWE-bench Verified에서 상위 모델의 human baseline 대비 성능은 1년 만에 60%에서 거의 100%까지 올랐습니다. 조직 차원 도입률은 88%, 대학생 5명 중 4명이 Generative AI를 사용합니다.
미국-중국 모델 성능 격차는 사실상 소멸했습니다. 2025년 2월 DeepSeek-R1이 잠시 미국 최상위 모델과 동률을 기록했고, 2026년 3월 기준 Anthropic 최상위 모델이 앞서지만 차이는 2.7%에 불과합니다. 한국은 1인당 AI 특허 밀도에서 세계 1위입니다.
미국은 5,427개의 AI 데이터센터를 보유해 2위 국가의 10배 이상이지만, 그 안의 반도체는 거의 모두 TSMC 한 곳에서 제조됩니다.
AI는 "jagged frontier"를 드러냅니다. Gemini Deep Think는 IMO 금메달을 땄지만, 상위 모델의 아날로그 시계 읽기 정확도는 50.1%에 불과합니다. AI Agent는 OSWorld에서 12%→66%로 성공률이 올랐지만 여전히 3번 중 1번 실패합니다.
로봇은 시뮬레이션(RLBench 89.4%)에서는 뛰어나지만 실제 가정 환경에서는 12% 성공률에 그칩니다.
Responsible AI는 역량 발전을 따라가지 못합니다. AI 인시던트는 2024년 233건에서 2025년 362건으로 증가했고, Responsible AI 차원들 간 trade-off가 실증적으로 확인되었습니다.
미국 민간 AI 투자는 2,859억 달러로 중국(124억 달러) 대비 23배 이상이지만, 미국으로 이동한 AI 연구자·개발자 수는 2017년 대비 89% 감소했고 최근 1년 동안만 80% 줄었습니다.
Generative AI는 3년 만에 53% 인구 도입률에 도달했고, 미국 소비자가 얻는 가치는 연 1,720억 달러로 추정됩니다.
22~25세 미국 소프트웨어 개발자 고용은 2024년 대비 20% 가까이 감소했습니다.
Grok 4의 학습 배출량은 72,816 CO₂ 환산 톤, AI 데이터센터 전력 용량은 29.6 GW(뉴욕 주 피크 수요와 동급)에 달합니다.
과학용 AI에서는 작은 모델이 큰 모델을 이깁니다. 1.11억 파라미터 MSAPairformer가 ProteinGym SOTA를 넘어섰고, 2억 파라미터 GPN-Star가 200배 큰 모델을 능가했습니다.
임상 AI 노트 생성 도구는 의사들의 노트 작성 시간을 최대 83% 줄였지만, 500개 이상 임상 AI 연구 중 실제 환자 데이터를 사용한 것은 5%에 불과했습니다.
미국 고등학생·대학생의 80% 이상이 학업에 AI를 사용하지만, AI 정책이 명확하다고 답한 교사는 6%뿐입니다.
AI Sovereignty가 국가 정책 핵심 원리로 부상했지만 인프라는 불균등합니다. 오픈소스 개발이 참여를 재분배합니다.
전문가와 대중의 인식 격차가 큽니다. AI가 직업에 긍정적이라고 보는 비율은 전문가 73%, 대중 23%로 50%p 차이입니다. 미국은 자국 정부의 AI 규제 신뢰도가 31%로 조사 대상국 중 가장 낮습니다.

2. Chapter 1: Research and Development

2.1 Notable AI Models — 산업 집중 심화

Epoch AI 데이터셋 기준 2025년 주목할 만한 AI 모델은 미국 50개, 중국 30개, 한국 5개 순으로 발표되었습니다. 전체 모델의 91.6%가 산업계에서 나왔고, 학계 단독 산출은 1개에 불과했습니다. 산업-학계 협력은 5.3%였습니다.

조직별로 보면 2025년 OpenAI가 19개, Google이 12개, Alibaba가 11개로 상위를 차지했고, 그 뒤를 Anthropic(7), xAI(5), DeepSeek(4), LG AI Research(4), Tsinghua University(4)가 따랐습니다. 2014년 이후 누적 기준으로는 Google이 가장 많은 모델을 냈고, 학계 누적으로는 Tsinghua, Stanford, Carnegie Mellon이 각각 26·26·25개로 최다입니다.

가장 주목할 변화는 투명성 하락입니다. 가장 자원 집약적인 시스템들(OpenAI, Anthropic, Google 일부 모델)은 학습 코드, 파라미터 수, 데이터셋 크기, 학습 기간을 더 이상 공개하지 않습니다. 보고된 파라미터 수는 지난 3년간 약 1조(1T) 수준에서 정체된 것처럼 보이지만, 이는 frontier lab의 공개가 중단된 탓이지 실제 성장이 멈춘 것이 아닙니다. 독립적으로 추정 가능한 Training Compute는 계속 증가하고 있습니다.

흥미로운 반례도 있습니다. OLMo 3.1 Think 32B는 Grok 4보다 거의 90배 적은 파라미터로 여러 벤치마크에서 비슷한 성능을 냅니다. 데이터 품질 관리(pruning, deduplication, curation)와 Post-training 기법의 가치가 단순 규모 확장 못지않게 중요해졌음을 시사합니다.

2.2 Compute and Infrastructure — Nvidia 60%, TSMC 단일 의존

2022년 이후 글로벌 AI 컴퓨트 용량은 연 3.3배씩 성장해 2025년 H100 환산 1,710만 대 수준에 이르렀습니다. Nvidia가 전체 컴퓨트의 60% 이상을 차지하고, Google과 Amazon이 상당 부분을 보완하며, Huawei가 작지만 성장하는 점유율을 차지합니다.

주목할 만한 모델의 하드웨어 채택을 보면, A100 클래스 하드웨어로 학습된 누적 모델 수가 2025년 84개로 가장 많고, V100 69개, H100 28개, TPU v3·v4 각 44·28개 순입니다.

그러나 이 전체 스택의 물리적 기반인 칩 제조는 TSMC 한 곳에 집중되어 있습니다. 리포트는 이를 "global hardware supply chain dependent on one foundry in Taiwan"이라고 명시하며 지정학적 Single Point of Failure로 지목합니다. 2025년부터 TSMC의 미국 공장이 가동을 시작했지만 의존도 해소는 아직 초기입니다.

2.3 Data Centers — 미국 5,427개의 압도적 집중

Cloudscene 데이터 기준 미국은 5,427개의 데이터센터를 보유하며 이는 2위 국가의 10배 이상입니다. 데이터센터 인프라는 GPU 외에도 냉각, 네트워킹, 전력 공급 등 광범위한 부속 인프라를 필요로 하며, 리포트는 이러한 인프라 전반에 대한 지리적 분포를 다룹니다.

2.4 Energy and Environmental Impact — 29.6 GW의 전력 소비

2025년 4분기 기준 AI 데이터센터 전력 용량은 약 29.6 GW로, 뉴욕 주 피크 수요(약 31 GW)와 거의 같은 수준입니다. AI 칩 전력(TDP 기준)이 약 11.8 GW를 차지하고 나머지는 냉각, 네트워킹, 기타 인프라가 차지합니다. 분기별 추세를 보면 2022년 1분기 약 0.15 GW에서 4년 만에 약 200배가 증가했습니다.

Grok 4의 학습 배출량 추정치는 72,816 CO₂ 환산 톤이고, 연간 GPT-4o 추론에 사용되는 물의 양만으로도 1,200만 명의 식수 수요를 초과할 수 있다는 추정도 제시됩니다.

2.5 Open-Source AI Software — 5.6백만 프로젝트

오픈소스 AI 개발은 계속 확장 중입니다. GitHub의 AI 관련 프로젝트는 약 560만 개에 달하고, Hugging Face 업로드는 2023년 이후 3배가 되었습니다. 미국 기반 프로젝트가 누적 GitHub Star 3,000만 개로 가장 많은 관심을 받습니다. "Rest of World"(미국·유럽·중국 외) 지역의 기여는 이제 유럽을 넘어섰고 미국에 근접하고 있어, 오픈소스가 참여를 지리적으로 재분배하는 역할을 합니다.

2.6 Publications — 중국의 양적 우위

AI 출판 총량에서는 중국이 명확한 선두입니다. 가장 인용된 상위 100개 AI 논문 중 중국의 비중은 2021년 33개에서 2024년 41개로 늘었습니다. 학회 참석자, 분야별 분포(LLM, Computer Vision, Robotics 등), 부문별 출판(산업·학계·정부) 데이터가 함께 제공됩니다.

2.7 Patents — 한국의 1인당 1위

특허 부여 건수에서도 중국이 선두이지만, 미국이 고영향 특허(forward citation)에서 앞섭니다. 한국은 인구 대비 AI 특허 밀도에서 세계 1위입니다. 리포트는 또한 기술 근접성(technological proximity), 지식 확산 속도(speed of knowledge diffusion) 같은 보조 지표로 특허 생태계의 구조를 분석합니다.

2.8 AI Authors and Inventors — 변하지 않은 성별 격차

스위스와 싱가포르가 1인당 AI 연구자·개발자 수에서 세계 최상위입니다. 미국으로 이동한 AI 연구자·개발자 수는 2017년 대비 89% 감소했고, 최근 1년 동안만 80% 줄었습니다. 미국은 여전히 최대 보유국이지만 신규 인재 유입률은 10년 만의 최저치입니다.

여성 참여 비중은 사우디아라비아 32.3%, 호주 30.1%, 캐나다 29.6%로 일부 국가가 상대적으로 높지만, 어떤 국가도 성별 균형에 가깝지 않습니다. 리포트는 2010년 이후 어떤 국가에서도 성별 격차에 의미 있는 개선이 없었다고 명시합니다.

3. Chapter 2: Technical Performance

3.1 Overall Performance Trends — 인간 베이스라인을 넘는 다수 벤치마크

ImageNet, SuperGLUE, MMLU, MATH, GPQA Diamond, MMMU, AIME, OSWorld, SWE-bench Verified 등 주요 벤치마크 대부분에서 상위 모델이 human baseline의 100%를 넘거나 매우 근접했습니다. Humanity's Last Exam은 AI에 어렵게 설계되었고 인간 전문가에게 유리하도록 만들어졌지만, frontier 모델이 1년 만에 30%p 성능을 끌어올렸습니다.

Closed-weight 대 Open-weight 격차는 2023년 5월 15.2%(GPT-4-0314 vs Vicuna-13B), 2024년 8월 0.5%(Llama-3.1-405B 등)로 좁혀졌다가 2026년 3월 다시 3.4%(Claude Opus 4.6 vs GLM-5)로 벌어졌습니다. 상위 10개 중 6개가 Closed-weight입니다.

미국-중국 격차는 2023년 압도적이었지만 2025년 2월 DeepSeek-R1이 0.4%(5 Elo)까지 추격했고, 2026년 3월 Claude Opus 4.6이 Dola-Seed-2.0 Preview를 39 Elo(2.7%) 앞섭니다.

Frontier 모델 수렴의 정확한 수치는 다음과 같습니다. 2026년 3월 기준 Arena Elo는 Anthropic 1,503, xAI 1,495, Google 1,494, OpenAI 1,481, Alibaba 1,449, DeepSeek 1,424, Mistral AI 1,416, Meta 1,335 순입니다. 상위 4개사가 25 Elo 이내에 모여 있어 사실상 구분이 어렵습니다. 경쟁의 축은 순수 역량에서 비용, 지연, 안정성, 도메인 특화 성능으로 이동했습니다.

벤치마크의 신뢰도 문제도 심각합니다. 널리 사용되는 평가 세트에서 잘못된 문제의 비율이 MMLU Math 2%부터 GSM8K 42%까지 분포합니다. Arena leaderboard 순위의 일부는 플랫폼 적응 효과를 반영할 수 있다는 별도 연구도 있습니다.

3.2 Language — MMLU, Arena, Specialized Tasks

언어 이해 영역에서는 MMLU가 여전히 광범위하게 사용되지만 포화에 가깝습니다. Arena Leaderboard가 인간 투표 기반의 다목적 평가로 자리잡았습니다. 특화 영역에서는 RAG(Retrieval-Augmented Generation), Berkeley Function Calling Leaderboard, MTEB(Massive Text Embedding Benchmark)가 다뤄집니다.

리포트는 Long Context Window가 길어졌음에도 깊은 이해와의 격차가 존재한다는 점을 별도 하이라이트로 다룹니다. 컨텍스트 윈도우 확장이 자동으로 추론 깊이를 보장하지 않습니다.

3.3 Image and Video — Veo 3의 창발 능력

이미지·비디오 이해 영역에서는 MVBench, Video-MMMU, Arena: Vision이, 생성 영역에서는 Video-Bench, VBench-2.0이 다뤄집니다. 가장 주목할 결과는 Google DeepMind의 Veo 3입니다. 18,000개 이상 생성 비디오로 테스트한 결과, 부력 시뮬레이션이나 미로 풀이처럼 명시적으로 학습되지 않은 능력을 보였습니다.

3.4 Reasoning — MMMU, GPQA, ARC-AGI-2, Humanity's Last Exam, Time Understanding, PlanBench

일반 추론 벤치마크는 MMMU, GPQA Diamond, ARC-AGI-2, Humanity's Last Exam이 다뤄집니다. 가장 흥미로운 발견은 시간 이해(Time Understanding)의 약점입니다. ClockBench에서 상위 모델이 아날로그 시계를 올바르게 읽는 정확도는 50.1%로 인간 90.1%에 한참 못 미칩니다. IMO 금메달과 함께 jagged intelligence의 전형적 예시로 인용됩니다.

계획(Planning) 영역에서는 PlanBench가 사용되며, 다단계 계획 수립이 여전히 도전적인 영역으로 남아 있음을 보여줍니다.

3.5 Performance in Specific Domains — 전문 영역 60~90%

소프트웨어 영역에서는 SWE-bench, Terminal-Bench, Vibe Code Bench가 다뤄집니다. SWE-bench Verified에서 상위 모델은 human baseline의 거의 100%에 도달했고, GPT-5.1은 ~76.3%(GPT-5의 ~72.8% 대비 향상)를 기록했습니다.

수학 영역에서는 FrontierMath, MathArena, 그리고 별도 Theorem Proving 하이라이트가 있습니다. 금융에서는 TaxEval, MortgageTax, CorpFin, Finance Agent가 다뤄지고, 법률에서는 CaseLaw, LegalBench가 사용됩니다.

이 모든 전문 영역에서 상위 모델은 60~90% 수준의 성능을 보이며, 상위 15개 모델이 각 벤치마크에서 3%p 이내로 모여 있습니다. 다만 높은 정확도와 신뢰성이 필수인 도메인에서 실배포 가능 수준까지는 여전히 거리가 있습니다.

3.6 AI Agents — GAIA, OSWorld, WebArena, MLE-bench, CyBench, τ-bench

Agent 영역은 2025년에 가장 빠르게 성장한 분야입니다. OSWorld에서는 12%→66.3%로 인간 성능의 6%p 이내로 좁혀졌고, WebArena, GAIA에서도 비슷한 추세입니다. MLE-bench는 머신러닝 엔지니어링 과제, CyBench는 사이버 보안 과제, τ-bench는 도구 사용 다단계 상호작용을 평가합니다. 구조화된 벤치마크에서도 여전히 1/3가량 실패한다는 점이 한계로 지적됩니다.

3.7 Robotics and Autonomous Motion — 시뮬레이션과 현실의 격차

RLBench에서 로봇 조작은 89.4% 성공률을 보이지만 BEHAVIOR-1K로 평가한 실제 가정 환경 작업에서는 12% 수준입니다. 휴머노이드 로봇과 Physical AI Foundation Model이 별도 하이라이트로 다뤄집니다.

자율주행은 2025년에 대규모 배포 단계에 진입했습니다. Waymo는 미국 5개 도시에서 주당 약 45만 건, 중국의 Apollo Go는 1,100만 건의 완전 무인 주행을 기록(전년 대비 175% 증가)했습니다. 다만 모두 우호적 날씨 지역에서 원격 인간 감독자가 있는 조건의 배포입니다. 안전성에 관한 신규 벤치마크들도 함께 소개됩니다.

4. Chapter 3: Responsible AI

4.1 RAI의 3계층 프레임워크

리포트는 Responsible AI를 3개 층위로 정리합니다. 첫째 계층은 AI 시스템이 달성해야 할 핵심 속성(Validity and reliability, Privacy, Data stewardship, Fairness and bias, Transparency and auditability, Explainability, Autonomy and human agency, Environmental sustainability, Factuality and truthfulness)입니다. 둘째 계층은 시스템 무결성과 리스크 통제(Security, Safety, Robustness), 셋째 계층은 거버넌스, 책무성, 시행입니다. 올해 신규 추가된 차원으로는 Autonomy and human agency, Environmental sustainability, Human oversight and contestability가 있습니다.

4.2 인시던트 증가와 보고 불균형

AI Incident Database 기준 문서화된 AI 인시던트는 2024년 233건에서 2025년 362건으로 증가했습니다. 거의 모든 주요 frontier 모델 개발사가 MMLU, SWE-bench 같은 역량 벤치마크 결과는 보고하지만, Responsible AI 벤치마크 보고는 드문드문합니다.

4.3 Hallucination — 지식과 믿음의 구분 실패

새로운 정확도 벤치마크에서 상위 26개 모델의 hallucination rate은 22%~94%입니다. 핵심 실험 결과는 다음과 같습니다. 거짓 진술이 "다른 사람이 믿고 있는 것"으로 제시되면 모델은 잘 처리합니다. 그러나 같은 거짓 진술이 "사용자 본인이 믿고 있는 것"으로 제시되면 성능이 붕괴합니다. GPT-4o 정확도는 98.2%→64.4%로, DeepSeek R1은 90%+→14.4%로 떨어졌습니다.

이는 RLHF 기반 alignment가 만들어낸 부작용으로 해석할 수 있습니다. 사용자 동조(sycophancy) 경향이 사용자가 표명한 믿음을 "수정하지 말아야 할 신호"로 처리하도록 학습시켰을 가능성이 있습니다.

4.4 조직 거버넌스 — 형식화와 격차

AI 특화 거버넌스 역할은 2025년에 17% 늘었고, 책임 AI 정책이 전혀 없는 조직 비율은 24%에서 11%로 급감했습니다. 다만 도입의 주요 장애물은 여전히 지식 격차(59%), 예산 제약(48%), 규제 불확실성(41%)입니다.

규제 영향력 측면에서는 GDPR이 여전히 가장 많이 인용되지만 2024년 65%에서 2025년 60%로 줄었습니다. 2025년 새로 등장한 항목으로는 ISO/IEC 42001(AI 관리시스템 표준)이 36%, NIST AI Risk Management Framework가 33%입니다. 규제 영향이 전혀 없다고 답한 조직 비율은 17%에서 12%로 떨어졌습니다.

4.5 영어 편향과 방언 손실

AI는 영어에서 가장 잘 작동하며, 그 격차는 글로벌 벤치마크가 보여주는 것보다 큽니다. HELM Arabic에서 지역 특화 모델이 GPT-5.1과 Gemini 2.5 Flash를 능가했습니다. 방언 수준으로 내려가면 격차는 더 벌어집니다. 슬로베니아어 commonsense 추론 테스트를 지역 방언으로 바꾸자 여러 frontier 모델이 정확도의 거의 절반을 잃었습니다.

4.6 투명성 하락

Foundation Model Transparency Index 평균 점수는 2023년 37, 2024년 58, 2025년 40으로 다시 하락했습니다. 학습 데이터, 컴퓨트 자원, 배포 후 영향에 대한 공개가 줄었습니다.

4.7 Safety의 적대적 취약성

AILuminate 벤치마크에서 frontier 모델 다수가 표준 사용 조건에서 "Very Good" 또는 "Good" Safety 등급을 받았습니다. 그러나 adversarial prompt를 사용한 jailbreak 시도에서는 모든 모델의 Safety 성능이 떨어졌습니다. 일상 배포와 적대적 조건 사이의 성능 격차를 어떻게 보고할지가 핵심 쟁점이 되었습니다.

4.8 RAI 차원 간 Trade-off

가장 실무적으로 중요한 발견은 RAI의 각 차원이 서로 충돌한다는 점입니다. Safety, Fairness, Privacy를 향상시키는 학습 기법이 다른 차원을 일관되게 저하시키는 실증 연구들이 2025년에 축적되었습니다.

이는 RAI를 단일 목적함수로 최적화할 수 없음을 의미합니다. 다음과 같이 추상화할 수 있습니다.

$\min_{\theta} \mathcal{L}_{\text{task}}(\theta) + \sum_{i} \lambda_i \mathcal{L}_{\text{RAI}_i}(\theta)$

여기서 $\mathcal{L}_{\text{RAI}_i}$ 들은 서로 독립이 아니며, Pareto frontier 상에서 어떤 지점을 선택할지가 설계의 핵심 결정이 됩니다. 리포트는 "the tradeoffs are not well understood"라고 명시하며, 이 영역이 향후 RAI 연구의 핵심 주제가 될 것임을 예고합니다.

5. Chapter 4: Economy

5.1 2025 Year in Review — 주요 투자 이벤트

리포트는 2025년 주요 투자·인수·펀딩 이벤트를 월별 타임라인으로 정리합니다. 1월 21일 OpenAI, SoftBank, Oracle, MGX가 Nvidia 등의 지원으로 $500B 규모의 Stargate Project를 발표했고, 1월 27일 DeepSeek가 Apple US App Store 무료 앱 1위에 올랐습니다. 3월 6일 중국이 $138B 규모의 AI 국가 VC 펀드를 발표했고, 3월 28일 CoreWeave가 2021년 이후 미국 최대 테크 IPO(밸류에이션 $23B)를 기록했습니다. 3월 31일 OpenAI는 $300B 포스트머니 밸류에이션으로 $40B를 조달했고, 5월 21일 OpenAI는 Jony Ive의 AI 하드웨어 스타트업 IO를 $6.5B에 인수했습니다.

5.2 투자 — 두 배로 증가

2025년 글로벌 기업 AI 투자는 전년 대비 두 배 이상 증가했습니다. 민간 투자가 127.5%의 가장 빠른 속도로 성장했고, 이제 전체의 60%를 차지합니다. Generative AI만 보면 200% 이상 성장해 전체 민간 AI 자금의 거의 절반을 가져갔습니다. 신규 펀딩 받은 AI 기업은 71% 증가했고, 빌리언 달러 펀딩 이벤트도 거의 두 배가 되었습니다.

미국 민간 AI 투자는 $285.9B로 중국 $12.4B 대비 23배이며, Generative AI에 한정하면 미국 투자가 중국과 유럽 합계를 큰 폭으로 능가합니다. 다만 중국의 정부 지도 기금이 2000~2023년 사이 AI 기업에 약 $184B를 배분한 것으로 추정되어, 민간 투자 비교만으로 중국 전체 AI 지출을 과소평가할 수 있다는 경고가 함께 제시됩니다.

5.3 매출과 인프라 지출의 동반 상승

선두 frontier 기업들이 짧은 시간 안에 의미 있는 매출 규모에 도달하고 있지만, 컴퓨트 지출도 전년 대비 크게 증가했습니다. 주요 클라우드 제공자들이 Capex를 가속 중이며, Google은 2025년 연 $150B 이상의 Capex를 보고했습니다.

5.4 소비자 잉여 — $172B의 가치

미국 소비자가 Generative AI 도구에서 얻는 가치는 2026년 초 기준 연 $172B로 추정되며, 1년 전 $112B 대비 54% 증가했습니다. 사용자당 중위 가치는 같은 기간 3배가 되었습니다. 대부분의 도구가 무료 또는 거의 무료라는 점에서 GDP 같은 전통 지표가 포착하지 못하는 가치가 빠르게 누적되고 있습니다.

5.5 조직 도입률 — 88%

2025년 조사된 조직의 88%가 AI를 도입했습니다. 적어도 한 가지 비즈니스 기능에서 Generative AI를 사용하는 조직은 70%이며, 중국과 유럽이 전년 대비 증가율에서 가장 높았습니다. 다만 AI Agent 배포는 거의 모든 비즈니스 기능에서 한 자릿수에 머물러 있습니다.

5.6 인구 도입률 — 3년 만에 53%

Generative AI는 3년 만에 53% 인구 도입률에 도달했습니다. 국가별로는 싱가포르 61%, UAE 54%로 GDP 예상을 뛰어넘고, 미국은 24위 28.3%입니다. GDP per capita와 상관은 강하지만 문화·언어 요인이 유의미하게 작용합니다.

5.7 노동 시장 — 채용 파이프라인의 압박

22~25세 미국 소프트웨어 개발자 고용은 2024년 대비 20% 가까이 감소했습니다. 조사 대상 조직의 1/3이 향후 1년 내 인력 감축을 예상하며, 서비스 운영, 공급망, 소프트웨어 엔지니어링에서 가장 큰 감축이 예상됩니다. 거의 모든 직무에서 예상 감축이 이미 관측된 감축을 앞섭니다.

5.8 생산성 — 구조화된 작업에서 14~50%

생산성 향상은 구조화되고 측정 가능한 작업에서 가장 큽니다. 고객 지원 14~15%, 소프트웨어 개발 26%, 마케팅 산출물 50% 수준의 이득이 보고됩니다. 깊은 추론이 필요한 작업에서는 이득이 작습니다. 최근 연구는 AI에 과도하게 의존하면 장기 학습 페널티(스킬 발달 둔화)가 누적될 수 있다는 우려도 제기합니다.

5.9 산업용 로봇 — 중국 54%

중국은 전 세계 산업용 로봇의 54%를 설치하며 2023년 51.1%에서 격차를 더 벌렸습니다. 글로벌 전년 대비 성장률은 정체였고 미국·독일·이탈리아가 감소했습니다. 대만은 33%의 가장 높은 전년 대비 성장률을 기록했습니다.

6. Chapter 5: Science

6.1 AI for Science의 세 단계

리포트는 AI의 과학 적용을 세 단계로 구분합니다. 첫째, 과학 데이터에 대한 ML 모델링(수십 년간의 관행, 일상화). 둘째, 문헌 종합·실험 설계·데이터 분석에서 과학자를 보조하는 AI(최근 수년 확장). 셋째, 최소한의 인간 지도만으로 새로운 과학적 발견을 생성하는 자율 AI(초기 단계).

2025년 주요 진전은 주로 둘째와 셋째 범주에서 나왔습니다.

6.2 출판 양적 확대

Web of Science 기준 자연과학 AI 관련 출판은 2025년 약 80,150건으로 2024년 63,547건 대비 약 26% 증가했습니다. 물리과학과 생명과학은 각각 약 33,000건, 29,000건으로 27~28% 성장했고, 지구과학은 약 20,460건(23% 성장)입니다. AI 출판이 전체 과학 출판에서 차지하는 비중은 지구과학 8.8%, 자연과학 전반 6.8%, 생명과학 6.5%, 물리과학 5.8%이며, 2010년에는 모두 1% 미만이었습니다.

6.3 분자생물학 — 작은 모델의 약진

분자생물학에서는 1.11억 파라미터 단백질 언어 모델 MSAPairformer가 ProteinGym에서 이전 SOTA를 넘어섰고, 2억 파라미터 유전체 모델 GPN-Star가 400억 파라미터 모델을 능가했습니다. AlphaFold 3와 그 오픈소스 복제(Boltz-2, OpenFold3)는 AlphaFold 2가 예측한 구조 데이터(self-distillation)로 학습합니다. Meta FAIR는 1억 개 이상 분자의 양자역학 계산을 담은 Open Molecules 2025(OMol25)를 공개했습니다.

새로운 실험 데이터셋도 등장했습니다. Tahoe-100M은 50종 이상의 암 세포 타입을 1,100개 이상의 약물에 노출시킨 단세포 시퀀싱 데이터셋으로 공개된 것 중 최대 규모입니다. BaseData는 메타지노믹 마이닝으로 얻은 98억 개 이상의 유전자를 담고 있습니다.

6.4 Virtual Cell Models — 2025년 신규 영역

가상 세포(Virtual Cell) 모델이 2025년 새로운 frontier로 등장했습니다. Arc Institute의 Evo 2, STATE, DeepMind의 AlphaGenome이 주요 출시였습니다. 이들 모델은 약물과 유전적 변형에 대한 세포 반응을 wet-lab 실험 없이 예측하는 것을 목표로 하지만, 현재로서는 여전히 실험 검증이 필요합니다.

6.5 천문학 — 최초 Foundation Model

2025년에는 천문학이 첫 Foundation Model(AION-1, 5개 주요 서베이의 2억 개 이상 천체로 학습), 첫 시각화 벤치마크(AstroVisBench), 100TB 학습 데이터셋을 공개했습니다. 분야 전반의 AI 인프라 전환 신호입니다.

6.6 기상 예측 — End-to-End ML 파이프라인

2025년 AI 시스템이 처음으로 전체 기상 예측 파이프라인을 end-to-end로 실행했습니다. Aardvark Weather는 전통적 수치 예측 파이프라인을 단일 ML 시스템으로 대체했고, FourCastNet 3는 60일 글로벌 예보를 4분 이내에 생성하며 기존 방식보다 8~60배 빠릅니다. 여러 AI 기상 모델이 운영 배포 단계에 도달했습니다.

6.7 자율 과학 연구의 한계

End-to-end 과학 연구 과제에서 최고의 AI Agent는 PhD 전문가의 절반 수준에 머물러 있습니다. PaperArena에서 최고 Agent 38.8% vs PhD 83.5%, BixBench에서 실제 바이오인포매틱스 분석 약 17%입니다. ChemBench 평균에서는 frontier 모델이 인간 화학자를 능가하지만, ReplicationBench에서 천체물리학 논문 규모의 복제에서는 20% 미만, UnivEarth 지구 관측 질문에서는 33% 정확도에 코드의 58%가 실패합니다.

Sakana의 AI Scientist-v2는 사람이 작성한 템플릿 없이 생성한 논문을 ICLR 워크숍에서 peer review 통과시켰습니다. Google의 AI Co-Scientist는 3개 생물의학 영역에서 검증되었습니다. 다만 실험적으로 확인된 AI 발견의 목록은 여전히 짧습니다.

6.8 거버넌스 — 학계·정부 중심

과학용 AI 모델 대부분은 학계와 정부 기관에서 나오며, 이는 산업계 중심의 범용 AI 지형과 대조됩니다. 다수는 국제 협력의 결과물이고, 지구과학 데이터셋은 전적으로 정부·학계 소스에서 옵니다. 기상·기후 Foundation Model에서는 산업계가 주도합니다.

7. Chapter 6: Medicine

7.1 The Central Dogma — 분자에서 치료까지

AI 모델은 유전자 서열→단백질 구조→치료제 설계의 전 경로를 다룹니다. AI 기반 단백질 연구 출판은 2024년 2,259건에서 2025년 3,855건으로 약 71% 증가했습니다. 단백질-약물 상호작용이 2024년 49.9%에서 2025년 54.4%로 비중을 키웠고, 구조 예측은 28.7%→23.9%로 줄었습니다. 합성 단백질 설계, 기능 예측은 비교적 안정적입니다.

신약 발견 AI 출판은 2018년 431건에서 2025년 3,311건으로 8년 만에 7배 이상 증가했습니다.

7.2 데이터 병목

생물학 AI 모델 개발의 병목은 이제 아키텍처가 아니라 데이터입니다. Cofolding 모델들이 Protein Data Bank의 모든 구조 유형을 표현하게 되면서, 2025년에는 AI가 예측한 구조의 distilled 데이터셋과 결합된 실험 데이터 학습으로 전환이 일어났습니다. 학습 세트는 수십만 개 엔트리에서 수천만 개로 확장되었습니다.

7.3 Ambient AI Scribe — 광범위한 임상 도입

환자 진료에서 자동으로 임상 노트를 생성하는 AI 도구는 2025년에 광범위하게 도입되었습니다. 여러 병원 시스템에서 의사들이 노트 작성 시간을 최대 83% 줄였다고 보고했고, 번아웃이 유의미하게 감소했으며, 한 병원 시스템은 112%의 ROI를 보고했습니다.

7.4 FDA 승인 — 258개 기기, 그러나 RCT는 2.4%

FDA는 2025년 258개의 AI 의료기기를 승인했지만, 대부분은 새로운 임상시험을 요구하지 않는 경로를 통해 시장에 진입했습니다. 기존 안전성·유효성 근거에 의존하는 기기 수정 경로가 주류이며, 무작위 시험 데이터로 뒷받침된 기기는 2.4%에 불과합니다.

7.5 진단 — 다중 에이전트의 약진

Microsoft의 AI Diagnostic Orchestrator와 OpenAI o3의 조합이 까다로운 의학 문헌 사례에서 85.5%의 정확도를 기록한 반면, 평소 도구 없이 진단한 의사는 20%에 그쳤습니다. 다중 에이전트 프레임워크 전반은 단일 에이전트 기준 대비 7%~60%+의 진단 정확도 향상을 보였습니다.

7.6 AI Overview의 의료 정보 점유

건강 관련 Google 검색의 84~92%에서 AI 생성 요약이 상단에 표시됩니다. 증상·일반 건강 질문에서는 92%가 AI Overview를 트리거합니다. 사용자가 의료 정보를 최초로 접하는 방식이 구조적으로 바뀌고 있습니다.

7.7 윤리 논의의 확대와 한계

의료 AI 출판물의 윤리 논의는 2025년에 두 배 이상 증가했지만 범위는 좁습니다. 거버넌스가 논의를 지배하는 반면, 알고리즘 책무성(algorithm accountability), 생물 안보(biosecurity), 글로벌 보건 형평성은 여전히 충분히 다뤄지지 않습니다.

7.8 의료 디지털 트윈

의료 디지털 트윈에 대한 연구 관심이 빠르게 성장 중이며, 엄정한 임상시험이 존재하는 영역에서는 초기 결과가 유망합니다. 150명 당뇨병 환자 대상 무작위 시험에서 71%가 1년 만에 약물을 안전하게 줄이면서 건강한 혈당 수준을 달성했습니다.

7.9 임상 AI 연구 방법론의 한계

500개 이상 임상 AI 연구 리뷰 결과, 거의 절반이 실제 환자 데이터가 아닌 시험 스타일 질문에 기반했고, 실제 임상 데이터를 사용한 연구는 5%에 불과했습니다. 임상 AI의 엄정한 근거 기반은 여전히 얕다는 의미입니다.

8. Chapter 7: Education

8.1 CS 등록의 감소와 AI 석사의 증가

미국 4년제 대학 CS 전공 등록은 2024~2025년 사이 11% 감소했습니다. 그러나 AI 소프트웨어 관련 석사 졸업자는 2023~2024년 17% 증가했습니다. CS 전반은 둔화되지만 AI 특화 교육 수요는 유지되는 이중 트렌드입니다.

8.2 ICT 졸업자 — 미국 선두, 신흥국 추격

미국은 모든 학위 수준에서 정보통신기술(ICT) 졸업자 배출에서 글로벌 리더이지만, 터키, 브라질, 멕시코의 ICT 졸업자 산출 증가율이 더 빠릅니다.

8.3 K-12 — 학생은 사용, 학교는 정책 부재

미국 고등학생과 대학생의 80% 이상이 학업에 AI를 사용합니다. 가장 흔한 용도는 리서치, 에세이 편집, 브레인스토밍입니다. 그러나 중·고등학교의 절반만이 AI 정책을 갖췄고, 정책이 명확하다고 답한 교사는 6%에 불과합니다.

8.4 국가별 AI 교육 의무화

90% 이상의 국가가 초등·중등 학생에게 컴퓨터 과학을 제공하지만, AI 교육은 더 느리게 자리잡고 있습니다. 중국과 UAE는 2025-26학년도부터 AI 교육을 의무화했습니다. 국가 수준의 공식 AI 교육으로의 전환 신호입니다.

리포트는 또한 다음 개념들을 명확히 구분합니다. "AI in Education"은 AI 도구로 교수·학습 과제를 수행하는 것, "AI Literacy"는 AI가 무엇이고 어떻게 작동하며 어떤 위험이 있는지에 대한 기초 이해, "AI Education"은 AI 시스템을 구축하는 기술적 역량까지 포함합니다. 공공 담론에서 자주 섞이지만 정책 결정 시에는 구분이 필요합니다.

8.5 AI PhD의 학계 회귀

미국과 캐나다의 신규 AI PhD 수는 2022~2024년 22% 증가했지만, 산업계로 가는 비중은 정체되어 있습니다. 모든 증가분이 학계로 흘러갔습니다. 10년간 지속되던 "AI PhD → 산업계" 흐름이 뒤집힌 것입니다.

8.6 정규 교육 밖의 AI 학습

사람들은 정규 교육 밖에서도 AI 기술을 습득하고 이력서에 광고합니다. 대부분 국가에서 AI Literacy는 엔지니어링 지향 AI 기술보다 빠르게 성장했습니다. UAE, 칠레, 남아프리카공화국은 예외로, 2022년 이후 엔지니어링 기술이 더 가파르게 성장했습니다.

9. Chapter 8: Policy and Governance

9.1 신흥국의 국가 AI 전략 확산

5년 전 공식 AI 정책이 없던 국가들 사이에서 국가 AI 전략이 가장 빠르게 확장되고 있습니다. 2024년 새로 채택된 전략의 절반 이상이 신흥경제국에서 나왔고, 2025년 기준 사하라 이남 아프리카, 중앙아시아, 중동의 추가 국가들이 적극적으로 전략을 개발 중입니다.

9.2 AI Sovereignty — 핵심 원리의 부상

자국 AI 역량에 대한 통제권 확보를 의미하는 "AI Sovereignty"가 국가 AI 정책의 핵심 원리로 부상했습니다. 2018~2025년 사이 유럽과 중앙아시아의 국가 지원 AI 슈퍼컴퓨팅 클러스터는 3개에서 44개로 늘었습니다. 반면 남아시아, 남미, 중동·북아프리카는 각각 2, 3, 8개에 그칩니다.

9.3 데이터 주권의 지역적 분기

데이터 주권 접근은 지역별로 매우 다릅니다. 2024년까지 동아시아·태평양은 77개, 사하라 이남 아프리카는 71개, 유럽·중앙아시아는 66개의 데이터 현지화 조치를 도입한 반면, 북미는 3개에 불과합니다. 국경 간 데이터 흐름에 대한 근본적으로 다른 접근을 반영합니다.

9.4 미국 의회 청문회 — 산업계 비중 급증

AI 관련 미국 의회 청문회 증인은 2017년 5명에서 2025년 102명으로 20배 증가했습니다. 산업계의 비중은 13%에서 37%로 거의 3배가 되어 가장 큰 증인 그룹이 되었고, 학계 비중은 15%로 하락했습니다.

9.5 유럽의 공공 약정 — $3.7B

유럽의 AI 공공 약정은 2013~2024년 사이 약 $3.7B의 계약에 도달했습니다. 영국이 $1.6B로 가장 많고, 독일 $505M, 프랑스 $320M 순입니다. 최근 지출은 가속 중입니다. 영국은 2024년 한 해에만 $454.4M(10년 누적의 28%)을, 독일은 $206.6M(누적의 40%)을 약정했습니다.

9.6 미국 — 공공 vs 민간의 비대칭

미국 공공 부문 AI 투자는 민간에 비해 미미합니다. 2013~2024년 사이 미국이 AI 관련 계약과 보조금에 투자한 누적 금액은 약 $20.4B인 반면, 미국 민간 투자는 2025년 한 해에만 $285.9B입니다.

9.7 2025년 주요 정책 이벤트

리포트는 2025년 주요 글로벌 AI 정책 뉴스를 월별 타임라인으로 정리합니다.

1월 23일 미국이 "Removing Barriers to American Leadership in AI" 행정명령으로 이전 AI 지침을 폐지하고 규제 장벽 철폐 정책을 채택했습니다. 2월 1일 영국이 AI 도구로 아동 성착취 이미지 생성을 범죄화하는 첫 번째 국가가 되었습니다. 2월 2일 EU AI Act의 첫 번째 조항(예측 치안, 감정 인식 등 고위험 사용 금지)이 발효되었습니다. 2월 11일 Paris AI Action Summit에서 미국과 영국이 60개국이 서명한 Inclusive AI 선언에 참여를 거부했습니다.

3월 14일 중국이 AI 생성 콘텐츠에 대한 의무 라벨링 규칙을 확정했고, 3월 24일 짐바브웨가 Nvidia와 협력해 아프리카 최초의 AI Factory를 발표했습니다. 3월 25일 유타 주가 Mental Health Chatbot Act(HB 452)를 제정해 AI 사용 공개, 광고 금지, 개인 데이터 공유 금지를 의무화했습니다.

4월 3일 키갈리 정상회의에서 아프리카 대륙의 AI 기회와 노동 시장 위험이 논의되었고, 4월 16일 몬태나 주가 Right to Compute Act(SB 212)로 계산 자원 소유·사용 권리를 보호했습니다. 5월 17일 아프리카 연합이 AI를 전략적 우선순위로 선언했고, 5월 19일 미국이 Take It Down Act를 제정해 AI 딥페이크를 포함한 비동의 친밀 이미지 유통을 규제했습니다. 6월 17일 캘리포니아 주가 Gavin Newsom 의뢰의 AI 정책 보고서에서 "irreversible harms"를 경고했습니다.

일본, 한국, 이탈리아는 각각 2025년에 국가 AI 법을 통과시켰습니다. 규제 방향은 세계적으로 분기 중입니다.

10. Chapter 9: Public Opinion

10.1 낙관과 불안의 동반 상승

Ipsos의 2025년 AI Monitor 조사(30개국, 23,216명)에 따르면 AI 제품·서비스의 이점이 단점보다 많다고 답한 비율은 2024년 55%에서 2025년 59%로 상승했습니다. 동시에 "AI 제품·서비스가 나를 불안하게 한다"고 답한 비율도 50%에서 52%로 올랐습니다. 낙관과 불안이 함께 자랍니다.

자기 보고 AI 이해도는 53%로 안정적이며, "AI 제품·서비스가 향후 3-5년간 내 일상을 크게 바꿀 것"이라는 응답은 67%, "AI 사용이 공개되어야 한다"는 응답은 79%입니다.

10.2 국가별 격차 — 동남아시아의 낙관

낙관도 증가가 국가별로 균등하지 않습니다. 유럽에서는 독일(+12%p), 프랑스(+10), 영국(+5)이 2022~2025년 상승했지만, 전체 수준은 아시아·라틴아메리카보다 낮습니다.

중국, 말레이시아, 태국, 인도네시아, 싱가포르에서는 80% 이상이 향후 3-5년간 AI가 자신의 삶을 크게 바꿀 것이라고 답합니다. 말레이시아가 2024년 대비 +9%p로 가장 큰 증가를 기록했고, 이들 동남아 국가에서는 불안보다 흥미를 더 많이 보고합니다.

10.3 인도의 불안감 급증

인도는 2024~2025년 사이 AI 불안감이 14%p 급증해 조사 대상국 중 가장 큰 변화를 기록했습니다. 같은 기간 흥미 증가는 2%p에 그쳐 두 감정의 변화 폭이 크게 비대칭입니다.

10.4 직장 내 AI 사용 — 신흥국이 선진국 추월

2025년 글로벌 직장인의 58%가 직장에서 AI를 정기적으로 사용한다고 보고합니다. 그러나 인도, 중국, 나이지리아, UAE, 사우디아라비아에서는 80%를 넘어, 신흥경제국 다수가 선진국을 추월하고 있습니다.

10.5 전문가-대중 인식의 50%p 격차

가장 뚜렷한 분열은 AI 전문가와 미국 대중 사이입니다. AI가 직업에 긍정적 영향을 줄 것이라고 보는 비율은 전문가 73%, 대중 23%로 50%p 차이입니다. 경제(69% vs 21%), 의료(84% vs 44%)에서도 비슷한 차이가 있습니다. 양쪽이 모두 부정적으로 보는 영역은 선거와 개인 관계에 대한 영향뿐입니다.

10.6 일자리 — 대중의 비관, 전문가의 빠른 도입 예상

미국인의 64%가 향후 20년간 AI가 일자리 감소로 이어질 것이라고 답한 반면, 증가를 예상한 비율은 5%에 불과합니다. 전문가는 덜 비관적입니다(감소 39%, 증가 19%). 그러나 도입 속도 예상은 정반대입니다. 전문가는 2030년까지 Generative AI가 미국 노동 시간의 80%를 보조할 것으로 예상하는 반면, 대중은 10% 수준으로 예상합니다.

10.7 AI Companionship — 일상화 가능성

AI 동반자(Companionship) 사용은 아직 틈새이지만, 전문가들은 2027년까지 미국 성인의 10%가, 2040년까지는 30%가 매일 AI 동반자를 사용할 것으로 예상합니다. 대중의 예상은 더 낮아 2040년 기준 20%입니다.

10.8 정부 신뢰 — 미국 31%

미국은 자국 정부의 AI 규제 역량에 대한 신뢰도가 31%로 조사 대상국 중 가장 낮습니다. 글로벌 평균은 54%이며, 동남아시아가 가장 높습니다(싱가포르 81%, 인도네시아 76%).

미국 50개 주 전반에서 "AI 규제가 너무 적다"는 우려가 "너무 많다"는 우려를 앞섭니다. 전국적으로 41%가 연방 AI 규제가 충분하지 못할 것이라고 답한 반면, 27%만이 너무 강할 것이라고 답합니다(나머지 1/3 이상은 불확실).

10.9 글로벌 신뢰 — EU 우위

Pew의 2025년 25개국 조사에서 AI 규제 효과성에 대한 신뢰 중위값은 EU 53%, 미국 37%, 중국 27%입니다. EU가 미국·중국보다 더 신뢰받는 규제자로 인식됩니다.

11. Data Scientist·ML 실무자 관점의 핵심 시사점

2026년 리포트에서 ML·DS 실무자가 특히 눈여겨볼 신호는 다음과 같이 정리됩니다.

첫째, 벤치마크의 신뢰도 위기입니다. MMLU Math 2%부터 GSM8K 42%까지 잘못된 문제가 존재한다는 조사 결과는, 모델 비교에 사용하는 측정 도구 자체를 재검토해야 함을 의미합니다. Arena 순위의 일부도 플랫폼 적응 효과로 해석될 수 있다는 우려가 함께 제기됩니다. 실무에서는 도메인 특화 eval 세트를 자체 구축하고 공개 벤치마크는 참고 지표로만 사용하는 것이 안전합니다.

둘째, Scaling 가정의 균열입니다. 과학 도메인에서 1.11억~2억 파라미터 모델이 수백억~수천억 모델을 이기는 사례, OLMo 3.1 Think 32B가 Grok 4와 비슷한 성능을 내는 사례는 데이터 품질, 도메인 귀납 편향, Post-training 레시피가 규모만큼 중요하다는 점을 재확인해줍니다.

셋째, Responsible AI의 다목적 최적화 문제입니다. Safety, Fairness, Privacy, Accuracy 간 trade-off가 실증적으로 확인된 이상, 어떤 Pareto frontier에서 운영할지가 설계 결정입니다. 단일 손실 함수로 풀 수 없는 문제임을 인지하고 배포 맥락별 가중치를 명시적으로 관리하는 프로세스가 필요합니다.

넷째, Jagged Intelligence의 실무적 함의입니다. IMO 금메달과 시계 읽기 50.1%의 괴리는 사용자 경험 설계에 직접 영향을 줍니다. 평균 성능이 높다는 사실이 모든 하위 태스크에서 안정성을 보장하지 않음을 사용자에게 명시적으로 소통해야 하고, 분포 밖(out-of-distribution) 조건에서의 성능을 별도로 측정해야 합니다.

다섯째, Hallucination의 사용자 믿음 의존성입니다. 사용자가 거짓을 자기 믿음으로 표명했을 때 모델 정확도가 붕괴한다는 발견은 RLHF sycophancy 문제의 정량적 증거입니다. 시스템 프롬프트와 사용자 메시지의 신뢰도를 구분하는 별도 신호를 파이프라인에 설계할 필요가 있습니다.

여섯째, 데이터 병목으로의 전환입니다. 의료·생물학 도메인에서 모델 개발 병목이 아키텍처에서 데이터로 명확히 이동했습니다. AlphaFold 2 예측 구조의 self-distillation처럼 AI가 생성한 데이터를 활용하는 전략이 점점 표준이 되고 있습니다.

일곱째, 도메인별 Foundation Model의 시대입니다. 천문학 AION-1, 기상 FourCastNet 3, Aardvark Weather처럼 도메인 특화 Foundation Model이 전체 파이프라인을 대체하는 사례가 늘고 있습니다. 범용 모델만으로 해결되지 않는 영역에서 도메인 데이터·물리 제약을 모델에 어떻게 인코딩할지가 핵심 설계 결정이 됩니다.

여덟째, 에이전트 배포의 갭입니다. Agent 벤치마크 성능은 빠르게 올랐지만 실제 비즈니스 기능에서 Agent 배포는 한 자릿수에 머물러 있습니다. 벤치마크 성능과 실배포 사이의 신뢰성·통합·관리 갭이 향후 1-2년의 핵심 과제입니다.

12. 마무리

리포트는 "what we cannot yet measure matters just as much as what we can"이라는 문장으로 서문을 닫습니다. 이 문장은 2026년 AI 지형을 이해하는 데 가장 적절한 요약입니다.

Frontier 모델들은 많은 벤치마크를 포화시켰고, 많은 도메인에서 사람 수준에 근접하거나 넘어섰습니다. 그러나 Responsible AI 차원 간 trade-off, Jagged Intelligence의 실체, 장기적 생산성 대 초급 일자리의 대체 효과, 환경 footprint의 정확한 회계, 전문가-대중 인식 격차의 근본 원인, 임상 AI의 실제 효과성, 데이터 주권의 적정선은 여전히 우리가 잘 측정하지 못하는 영역들입니다.

연구자와 실무자에게 2026년의 가장 실용적인 교훈은 다음과 같습니다. 역량 지표와 책임 지표를 같은 중요도로 측정하고, 단일 벤치마크 점수가 아니라 조건별 분포를 관찰하며, trade-off를 명시적으로 문서화하는 것입니다. 리포트 전체를 관통하는 "gap between what AI can do and how prepared we are to manage it"이라는 진단은 우리 일상의 엔지니어링 실천에서 먼저 좁혀져야 합니다.

서쿠

Always be passionate ✨

이전 포스트

NVIDIA GTC 2026 키노트 완벽 정리: Inference Inflection부터 Physical AI까지

다음 포스트