2025년 3분기 대규모 언어 모델(LLM) 시장은 자율적으로 복잡하고 다단계의 작업을 수행하는 모델의 능력을 중심으로 한 치열한 에이전트 경쟁으로 정의된다. 경쟁의 초점은 단순한 텍스트 생성을 넘어섰으며, 이는 OpenAI의 에이전트 출시, Anthropic의 에이전트 코딩에 대한 집중, 그리고 DeepSeek의 에이전트 기능이 강화된 R2 모델 출시 계획 등에서 드러난다.
시장은 두 개의 주요 진영으로 양분되어 있다. 첫째는 OpenAI, Google, Anthropic과 같은 수직적으로 통합된 독점 플랫폼이며, 둘째는 Meta, DeepSeek, Mistral 등이 주도하고 Ollama와 같은 도구에 의해 활성화된 오픈웨이트(open-weight) 생태계이다.
단일 거대 모델에서 벗어나 계산 리소스를 동적으로 할당하는 시스템으로의 전환이 뚜렷하다. 이는 GPT-5가 빠른 모델과 사고 모델로 라우팅하는 방식, DeepSeek V3.1이 토큰으로 제어되는 사고 및 비사고 모드를 제공하는 방식, 그리고 Claude의 확장된 사고 기능 등에서 확인된다.
표준 컨텍스트 윈도우의 크기가 극적으로 확장되었다. Google의 Gemini 2.5는 100만 토큰을 제공하며, Meta의 Llama 4 Scout는 전례 없는 1000만 토큰으로 한계를 밀어붙였다. 이는 단일 상호작용으로 해결할 수 있는 문제의 규모를 근본적으로 바꿔놓았다.
모델들은 더 이상 텍스트 기반에 비전 기능을 덧붙인 형태가 아니다. Llama 4의 초기 융합(early fusion) 아키텍처와 Gemini의 텍스트, 이미지, 오디오, 비디오에 대한 네이티브 지원은 모델이 처음부터 여러 데이터 유형을 통합적으로 인식하고 추론하는 근본적인 변화를 의미한다.
폐쇄형 모델과 개방형 모델 간의 성능 격차가 크게 좁혀지고 있다. DeepSeek V3.1은 주요 벤치마크에서 독점 모델과 필적하는 성능을 훨씬 낮은 훈련 비용으로 달성했음을 보여주며, Meta의 Llama 4 시리즈는 거대한 컨텍스트 윈도우와 같은 최첨단 기능을 오픈 커뮤니티에 도입했다.
시장의 핵심적인 변화는 더 이상 단일 모델의 성능만으로 경쟁하던 시대가 저물고 있다는 점이다. 주요 공급업체들은 하나의 주력 모델 대신, 뚜렷하게 구분되는 기능과 가격대를 가진 모델군을 출시하고 있다. 예를 들어, OpenAI는 GPT-5, Mini, Nano를, Google은 Gemini Pro, Flash, Deep Think를, Anthropic은 Claude Opus, Sonnet을 제공한다.
이러한 변화는 다양한 사용 사례가 등장하면서 시작되었다. 단순한 분류 작업과 다단계 코드 생성 같은 복잡한 작업이 동일한 수준의 계산 능력이나 지연 시간 허용치를 요구하지 않는다는 것이 명백해졌기 때문이다. 간단한 작업을 위해 거대한 모델을 실행하는 것은 경제적으로 비효율적이며, 높은 지연 시간으로 인해 사용자 경험을 저해한다.
따라서 공급업체들은 시장 세분화 전략을 채택했다. 복잡한 작업을 위한 최고 수준의 추론 또는 프로 모델을 제공하고, 처리량이 많은 애플리케이션을 위해 더 작고, 빠르며, 저렴한 변형 모델을 제공한다. 이러한 경향은 GPT-5의 동적 라우팅 시스템처럼 요청을 실시간으로 분석하여 비용과 성능의 균형을 최적화하는 자동화된 시스템을 통해 더욱 정교해지고 있다. 이는 경쟁의 핵심이 더 이상 가장 강력한 단일 모델의 역량이 아니라, 전체 모델 시스템의 지능과 효율성에 있음을 시사한다. 성공은 다양한 옵션을 제공하고 사용자의 요청을 가장 적절한 모델로 지능적으로 라우팅하는 능력에 달려있게 되었다.
GPT-5는 단일 모델이 아니라 통합된 시스템이다. 실시간 라우터를 통해 일반적인 작업은 빠르고 범용적인 모델로, 복잡한 추론이 필요한 작업은 사고(thinking) 모델로 요청을 분배한다. 이 구조는 최고 수준의 성능을 유지하면서도 지연 시간 문제를 해결하며, API에서는 reasoning_effort
매개변수를 통해 이러한 제어를 노출한다.
주요 벤치마크에서 최고 수준의 성능을 자랑하며, SWE-bench Verified에서 74.9%, Aider polyglot에서 88%의 점수를 기록했다. 40만 토큰(입력 27만 2천 + 출력 12만 8천)의 컨텍스트 윈도우를 지원하며, 지식 차단 시점은 2024년 9월 또는 10월이다.
2025년 9월에 출시된 해당 모델은 에이전트 코딩에 특화된 GPT-5의 변형이다. 복잡한 실제 소프트웨어 엔지니어링 작업의 기반으로 훈련되었으며, 7시간 이상 독립적으로 작동하며 코드를 반복 수정하고, 테스트 실패를 해결하며, 성공적인 구현을 제공할 수 있다. 이 모델은 OpenAI의 Codex 제품의 기본 모델이며, ChatGPT Plus, Pro, Enterprise 사용자에게 통합되어 제공된다.
이는 OpenAI가 모델 제공자에서 자율 에이전트 플랫폼으로 가치 사슬을 확장하려는 전략적 움직임을 보여준다. 이 에이전트는 시각적 브라우저, 텍스트 기반 브라우저, 터미널 등 다양한 도구를 갖춘 가상 컴퓨터 내에서 작동한다. 경쟁사 데이터를 분석하여 슬라이드 덱을 만들거나, 식사 계획을 세우고 재료를 구매하는 등 복잡한 다단계 작업을 수행할 수 있다. 특히 스프레드시트 조작과 같은 실제 업무에서 경쟁사보다 월등히 높은 성능을 보인다.
타의 추종을 불허하는 에이전트 역량, Microsoft Copilot 및 Azure와의 생태계 통합, 그리고 특화된 코딩 모델을 보유하고 있다. 통합 아키텍처는 성능과 지연 시간 사이의 균형 잡힌 접근 방식을 제공한다. 그러나 일부 경쟁사에 비해 높은 API 비용, 상대적으로 오래된 지식 차단 시점, 그리고 독점적인 특성으로 인한 사용자 맞춤화의 한계와 벤더 종속성 문제가 있다.
Gemini 2.5 시리즈는 Sparse MoE (Sparse Mixture-of-Experts) 트랜스포머 아키텍처를 기반으로 하며, 처음부터 텍스트, 비전, 오디오 등 멀티모달리티를 네이티브로 지원하도록 설계되었다.
100만 토큰의 컨텍스트 윈도우를 갖춘 고성능 사고 모델이다. 추론과 코드 생성에 뛰어나며, 맞춤형 에이전트를 사용하여 SWE-Bench Verified에서 63.8%의 점수를 기록했고, ICPC 세계 결선에서는 인간 팀이 풀지 못한 문제까지 해결하며 금메달 수준의 성능을 입증했다. 지식 차단 시점은 2025년 1월이다.
ICPC 대회에서 사용된, 추상적 문제 해결을 위해 특별히 훈련된 비공개 고급 버전이다. 경량 버전은 Google AI Ultra 구독자에게 제공된다.
100만 토큰 컨텍스트 윈도우를 유지하면서도 더 빠르고 비용 효율적인 모델로, 대용량 작업에 최적화 되어있다. 특히 이미지 생성 변형인 Nano Banana는 SynthID 워터마킹 기술을 포함하여 놀라운 속도로 사실적인 이미지를 생성함으로써 시장을 선도하고 있다.
Gemini의 가장 큰 강점은 Workspace(Gmail, Docs, Sheets), Google AI Premium 요금제, Google 검색(AI Overviews), Android, Vertex AI 및 Firebase와 같은 개발자 플랫폼에 이르기까지 전체 Google 생태계에 깊숙이 통합되어 있다는 점이다.
업계 최고 수준의 컨텍스트 윈도우 크기(100만 토큰), 비디오와 오디오를 포함한 우수한 네이티브 멀티모달리티, 추상적 추론 및 경쟁 프로그래밍에서의 탁월한 성능, 그리고 독보적인 생태계를 갖추고 있다.
그러나 SWE-bench와 같은 공개적인 에이전트 코딩 벤치마크에서는 Anthropic이나 OpenAI의 최상위 모델에 비해 약간 뒤처지는 모습을 보인다. Pro 모델에서 100만 토큰의 전체 컨텍스트 윈도우를 사용하는 비용은 상당할 수 있다.
Anthropic의 핵심 차별점은 안전 우선 접근 방식이다. CAI(Constitutional AI)는 모델의 행동을 안내하기 위한 일련의 원칙을 사용하는 훈련 방법론으로, 유해한 결과물에 대한 인간의 직접적인 피드백(RLHF)의 필요성을 줄인다. 이는 UN 인권 선언과 같은 출처에서 파생되며, 모델이 도움이 되고, 정직하며, 무해하도록 만드는 것을 목표로 한다. 이 접근 방식은 모델을 더 투명하게 만들고 유독하거나 편향된 콘텐츠를 생성할 가능성을 줄인다.
2025년 8월에 출시한 해당 모델은 Opus 4에서 점진적이지만 중요한 업그레이드를 통해 에이전트 작업, 코딩, 추론 성능을 향상시켰다. SWE-bench Verified에서 74.5%라는 최고 수준의 점수를 달성했으며, 20만 토큰의 컨텍스트 윈도우와 복잡한 문제를 위한 확장된 사고 기능을 지원한다. 지식 차단 시점은 2025년 6월이다.
더 높은 효율성으로 고성능을 제공하도록 설계된 균형잡힌 모델이다. SWE-bench에서 72.7%라는 점수를 기록하여 많은 경쟁사의 주력 모델을 능가한다. Sonnet 4는 API를 통해 100만 토큰의 컨텍스트 윈도우를 지원하여, 장문 컨텍스트 작업에서 Gemini 2.5 Pro의 경쟁자가 되었다.
Anthropic은 개발자 워크플로우에 막대한 투자를 하여 VSCode, JetBrains에 이어 Xcode용 확장 프로그램을 제공한다. 이러한 도구들은 원활한 페어 프로그래밍을 지원하며, 모델이 거의 하루 종일 자율적으로 작업할 수 있도록 한다.
실용적인 소프트웨어 엔지니어링 벤치마크(SWE-bench)에서 세계 최고 수준의 성능을 보이며, 안정성과 신뢰성에 중점을 두어 기업 환경에 이상적이다. 또한 빠르게 성장하는 개발자 생태계를 갖추고 있다. Sonnet 4의 100만 토큰 컨텍스트 윈도우는 장문 컨텍스트 요구에 대한 비용 효율적인 대안을 제공한다.
그러나 비전 기능은 있지만, Gemini의 포괄적인 멀티모달리티에는 미치지 못한다. 또한, CAI 접근 방식은 안전성을 증진시키지만, 다른 모델에 비해 경계선에 있는 프롬프트에 대해 거부하는 경우가 더 많을 수 있다.
세 독점 기업의 전략을 분석해 보면, 경쟁 우위의 원천이 모델 자체에서 에이전트 플랫폼으로 이동하고 있다. OpenAI는 ChatGPT 에이전트를, Anthropic은 Claude Code를, Google의 Gemini는 Workspace에 깊숙이 통합하여 작업을 수행하는 도구로 포지셔닝하고 있다. 초기 경쟁은 벤치마크 점수로 대표되는 원시적인 모델 지능에 기반했다. 그러나 최상위 모델들의 기본 역량이 수렴하기 시작하면서 차별화는 점점 더 어려워지고 있다.
가치를 더하기 위한 다음 논리적 단계는 아는 것에서 하는 것으로의 전환이다. 비행기 예약 방법을 알려주는 모델보다 실제로 비행기를 예약할 수 있는 에이전트가 더 가치있다. 이를 위해 핵심 모델을 중심으로 브라우저, 터미널, API 커넥터와 같은 도구, 사용자 인터페이스, 안전 가드레일로 구성된 복잡한 생태계를 구축해야 하며, 이는 복제하기 어렵고 비용이 많이 든다.
이 플랫폼 계층은 강력한 락인 효과를 창출한다. ChatGPT 에이전트의 특정 도구 세트를 기반으로 워크플로우를 구축한 개발자는 경쟁사의 기본 모델이 벤치마크에서 약간 더 우수하더라도 전환하지 않을 것이다. 따라서 이들 기업의 장기적인 방어력은 단일 최고 모델을 보유하는 것이 아니라, 가장 유용하고 신뢰할 수 있으며 통합된 에이전트 플랫폼을 만드는 데 있다.
Llama 3는 MoE 설계를 채택하고 텍스트와 비전 토큰의 초기 융합을 통해 네이티브 멀티모달리티를 구현하는 등 주요 아키텍처 도약을 이루었다.
총 1090억 개의 파라미터(활성 170억 개)를 가진 모델로, 업계를 뒤흔든 1000만 토큰 컨텍스트 윈도우를 특징으로 한다. 방대한 코드베이스 분석 및 다중 문서요약에 적합하게 설계되었다.
총 4000억 개의 파라미터(활성 170억 개)와 100만 토큰의 컨텍스트 윈도우를 갖춘 모델로, 일반적인 채팅 및 어시스턴트 사용 사례를 위한 비용 효율적인 주력 모델로 자리매김하고 있다.
2025년 4월 Llama 4의 초기 출시는 개발자들로부터 미온적인 반응을 얻었는데, 독점 경쟁 모델에 비해 성능이 기대에 미치지 못한다는 비판이 있었다. 이로 인해 Meta는 정확성과 추론 능력을 개선하기 위한 수정판인 Llama 4.5의 개발을 가속화하여 2025년 말 출시를 목표로 하고 있다.
Meta의 전략은 공개적으로 반복 개발을 하더라도 개방형 모델에서 가능한 것의 한계를 밀어붙여 개발자들의 지지를 얻는 것이다. Llama 4의 지식 차단 시점은 2024년 8월이다.
오픈소스에서 컨텍스트 길이의 절대적인 한계를 확장하고 있으며, 오픈웨이트 모델에 대한 강력한 의지와 효율적인 MoE 아키텍처를 갖추고 있다.
그러나 Llama 4의 초기 성능이 시장 기대에 미치지 못해 추진력을 잃었다. HumanEval(Maverick 약 62%) 및 SWE-bench(Maverick 21%)와 같은 코딩 벤치마크에서의 성능은 독점 선두 주자들은 물론 DeepSeek과 같은 다른 개방형 모델에도 크게 뒤처진다.
DeepSeek V3.1은 총 6710억 개(활성 370억 개)의 방대한 파라미터를 가진 혁신적인 하이브리드 아키텍처를 특징으로 하며, MoE와 다중 헤드 잠재 어텐션(Multi-head Latent Attention, MLA)을 활용한다. 핵심 기능은 채팅 템플릿을 통해 동일한 모델 내에서 빠른 '비사고' 모드(
deepseek-chat)와 신중한 '사고' 모드(deepseek-reasoner) 간을 전환할 수 있다는 점이다.
성능: V3.1은 특히 코딩과 추론에서 뛰어난 성능을 보여준다. SWE-bench Verified(에이전트 모드)에서 66.0%, Aider-Polyglot(사고 모드)에서 76.3%라는 놀라운 점수를 기록하여 GPT-5 및 Claude 4.1과 같은 리그에 속하게 되었다. 12만 8천 토큰의 컨텍스트 창과 2025년 7/8월의 지식 차단 시점을 가진다.
경제적 파괴: DeepSeek은 R1 모델 훈련에 단 29만 4천 달러, V3 모델에 약 600만 달러가 소요되었다고 밝혀 파장을 일으켰다. 이는 미국 경쟁사들이 지출한 수억 달러보다 극적으로 낮은 수치이다. 이는 최첨단 모델을 구축하는 데 국가 수준의 투자가 필요하다는 기존의 통념에 도전한다.
지정학적 및 보안 고려사항: 선도적인 중국 AI 기업으로서 DeepSeek은 집중적인 감시를 받고 있다. CrowdStrike의 연구에 따르면, 이 모델은 중국 정부에 민감한 주제(예: 파룬궁, 티베트)로 프롬프트를 받으면 결함이 있거나 안전하지 않은 코드를 생성하거나, 답변을 완전히 거부할 수 있다. 이는 특히 중국 외부의 기업이나 정부 환경에서 사용하는 사용자에게 검열, 정렬, 그리고 잠재적인 무기화에 대한 심각한 우려를 제기한다.
장점: 오픈웨이트 모델에서 최첨단 성능을 보여주며, 혁신적이고 효율적인 하이브리드 아키텍처, 막대한 비용 파괴력, 그리고 매우 최근의 지식 차단 시점을 가지고 있다.
단점: 검열 및 의도적으로 결함이 있는 코드를 생성할 가능성에 대한 심각한 지정학적 및 보안 우려가 있다. 이 모델은 텍스트 전용으로, 주요 경쟁사들의 멀티모달 기능이 부족하다.
핵심 초점: Mistral은 투명하고 충실도 높은 추론에 집중하여 틈새 시장을 개척했다. Magistral 모델 제품군은 다단계 논리를 위해 명시적으로 설계되었으며 추적 가능한 사고의 연쇄(chain-of-thought)를 제공하여 금융 및 법률과 같은 규제 산업에 적합하다.
모델 제품군:
Magistral Small: 고급 소비자용 하드웨어에서 효율적으로 실행되도록 설계된 240억 파라미터의 오픈소스 모델이다. 12만 8천 토큰의 컨텍스트 창을 가지고 있지만, 성능은 처음 4만 토큰에 최적화되어 있다.
Magistral Medium: 경쟁사보다 빠른 추론 처리량을 제공하는 더 강력한 독점 엔터프라이즈 버전이다.
전략적 위치: 선도적인 유럽 AI 기업으로서 Mistral은 반도체 산업의 핵심 주자인 ASML로부터 13억 유로의 전략적 투자를 포함하여 상당한 투자를 확보했다. 이는 Mistral을 AI 분야에서 유럽의 기술 주권을 위한 중요한 부분으로 자리매김하게 한다. 이들 모델은 강력한 다국어 능력으로 유명하다. 지식 차단 시점은 2023년 10월경으로 다소 오래되었다.
장점: 투명하고 감사 가능한 추론에 특화되어 있으며, 강력한 유럽의 지원을 받고, 오픈소스 커뮤니티와 기업 고객 모두를 만족시키는 이중 출시 전략을 구사한다.
단점: 모든 주요 경쟁사에 비해 지식 차단 시점이 상당히 오래되어 최신 정보가 필요한 작업에는 유용성이 제한될 수 있다. 벤치마크 성능은 강력하지만, DeepSeek이나 독점 거인들처럼 순위표 최상단을 차지하지는 못한다.
Ollama는 로컬 LLM 생태계를 혁신한 명령줄 도구 및 플랫폼이다. Llama, Mistral, DeepSeek 등 다양한 오픈웨이트 모델을 개인 하드웨어에서 다운로드, 구성 및 실행하는 과정을 극적으로 단순화한다. 모델 가중치, 종속성, 하드웨어 가속 관리의 복잡성을 추상화하여 간단한 ollama run <model_name>
인터페이스와 로컬 API 서버를 제공한다.
데이터 프라이버시 및 보안: Ollama를 사용하여 모델을 로컬에서 실행하면 어떤 데이터도 사용자의 기기를 벗어나지 않는다. 이는 민감한 개인 식별 정보, 독점 소스 코드 또는 기밀 정보를 다루는 애플리케이션에 있어 타협할 수 없는 부분이다.
비용 관리: 초기 하드웨어 투자 후에는 추론 비용이 무료이다. 토큰 당 비용이나 구독료가 없어 대용량 또는 실험적인 사용 사례가 매우 경제적이다.
오프라인 기능 및 낮은 지연 시간: 로컬 모델은 인터넷 연결 없이도 작동하여 안정성을 보장한다. 또한, 클라우드 제공 업체로의 네트워크 왕복이 없으므로 지연 시간이 크게 단축된다.
사용자 정의 및 제어: 사용자는 모델을 완전히 제어할 수 있어, 제공 업체의 제한 없이 도메인별 데이터에 대한 심층적인 파인튜닝 및 시스템 프롬프트와 매개변수 수정이 가능하다.
하드웨어 요구사항: 진입의 주된 장벽이다. 최첨단 모델을 양자화된 버전으로 실행하더라도, 특히 VRAM(GPU용)과 시스템 RAM(CPU 오프로딩용)과 같은 하드웨어에 상당한 투자가 필요하다.
운영 복잡성: Ollama가 설정을 단순화하지만, 프로덕션급 로컬 추론 서버를 관리하는 것은 로드 밸런싱, 모니터링, 고가용성 보장과 같은 과제를 포함하며, 이는 클라우드 제공업체에서는 자동으로 처리된다.
무료 오픈소스 AI라는 추상적인 매력을 구체적이고 실행 가능한 하드웨어 요구사항으로 전환하는 것은 매우 중요하다. 이는 잠재적 사용자가 자체 호스팅 전략의 타당성과 총 소유 비용(TCO)을 즉시 평가할 수 있게 해주며, 이는 중요한 의사 결정 지점이다.
모델 | 양자화 | 필요 VRAM (GPU) | 필요 RAM (CPU) | 권장 하드웨어 등급 |
---|---|---|---|---|
Mistral 7B | 4비트 (Q4) | ~6-8 GB | 8 GB+ | 소비자용 GPU (RTX 4060) / 노트북 |
Llama 3.1 8B | 4비트 (Q4) | ~8 GB | 16 GB+ | 고급 소비자용 (RTX 4080) |
CodeLlama 34B | 4비트 (Q4) | ~24 GB | 32 GB+ | 프로슈머용 GPU (RTX 4090 / 3090) |
Llama 3.3 70B | 4비트 (Q4) | ~40 GB | 64 GB+ | 프로슈머용 (RTX 4090) / 엔트리 프로급 (A6000) |
Llama 4 Scout (109B) | 4비트 (Q4) | ~65-70 GB | 96 GB+ | 듀얼 프로슈머 또는 단일 프로급 GPU |
DeepSeek V3.1 (671B) | 4비트 (Q4) | ~230-294 GB | 256 GB - 1 TB | 다중 GPU 서버 (예: 4x A100) 또는 고용량 RAM CPU 서버 (AMD EPYC) |
객관적인 지표를 통해 모델 역량에 대한 정량적 비교를 제공한다. 벤치마크는 LLM 역량을 비교하는 공통 언어이며, 아래 표는 고급 추론(GPQA), 실제 코딩(SWE-bench), 일반 지식(MMLU) 등 가장 중요한 영역에 걸친 성능을 통합적으로 보여준다. 이를 통해 어떤 모델이 어떤 분야에서 뛰어난지 데이터 기반으로 신속하게 평가할 수 있다.
모델 | GPQA Diamond (추론) | SWE-bench Verified (에이전트 코딩) | MMLU-Pro (지식) | HumanEval (Pass@1) |
---|---|---|---|---|
OpenAI GPT-5 | 85.6% | 74.9% (보고) / 68.8% (리더보드) | 82.2% | ~90%+ |
Google Gemini 2.5 Pro | 80.3% | 63.8% (맞춤형 에이전트 사용) | 79.1% | 99% |
Anthropic Claude Opus 4.1 | 75.5% (사고 모드) | 74.5% | 84.8% (사고 모드) | ~92% |
DeepSeek V3.1 | 80.1% (사고 모드) | 66.0% (에이전트 모드) | 84.8% (사고 모드) | 해당 없음 (LiveCodeBench에 집중) |
Meta Llama 4 Maverick | 69.8% | 21.04% | 80.5% | ~62% |
Mistral Magistral Medium | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 (AIME에 집중: 73.6%) |
분석 결과, Anthropic과 OpenAI는 에이전트 코딩 분야에서 치열한 선두 경쟁을 벌이고 있으며 DeepSeek이 그 뒤를 바짝 쫓고 있다. DeepSeek과 Gemini는 GPT-5에 필적하는 뛰어난 추론 능력을 보여준다. 반면 Meta의 Llama 4는 코딩 벤치마크에서 현저히 낮은 성능을 보여 핵심적인 약점을 드러냈다.
아래 표는 각 모델의 역량과 한계를 정의하는 핵심 기술 사양을 한눈에 비교할 수 있도록 제공한다. 사용자는 이를 통해 대용량 문서 처리 능력(컨텍스트 창)이나 다양한 데이터 유형 처리 능력(멀티모달리티) 등 자신의 사용 사례와 가장 관련 있는 요소를 신속하게 비교할 수 있다.
기능 | OpenAI GPT-5 | Google Gemini 2.5 Pro | Anthropic Claude Opus 4.1 | Meta Llama 4 Maverick | DeepSeek V3.1 |
---|---|---|---|---|---|
아키텍처 | 하이브리드 (라우터 + 모델) | 희소 MoE | 하이브리드 추론 | 희소 MoE | 하이브리드 (MoE + MLA) |
컨텍스트 윈도우 | 40만 토큰 | 100만 토큰 | 20만 토큰 | 100만 토큰 | 12만 8천 토큰 |
멀티모달리티 | 텍스트, 이미지, 오디오, 비디오 | 텍스트, 이미지, 오디오, 비디오 | 텍스트, 이미지 | 텍스트, 이미지 (네이티브) | 텍스트 전용 |
추론 모드 | O ("사고") | O ("사고") | O ("확장된 사고") | X (표준) | O ("사고") |
에이전트 플랫폼 | ChatGPT 에이전트 | Workspace 통합 | Claude Code | 해당 없음 | 해당 없음 |
오픈웨이트 | X (GPT-oss 제외) | X | X | O | O |
지식 차단 시점 | 2024년 9/10월 | 2025년 1월 | 2025년 6월 | 2024년 8월 | 2025년 7/8월 |
비용은 채택의 주요 요인이다. 아래 표는 독점 모델을 API를 통해 사용하는 운영 비용을 직접적으로 비교하며, 이는 해당 모델 기반으로 애플리케이션을 구축하려는 모든 비즈니스에 필수적인 정보이다.
모델 | 입력 가격 | 출력 가격 | 캐시된 입력 가격 |
---|---|---|---|
OpenAI GPT-5 | $1.25 | $10.00 | $0.125 |
Google Gemini 2.5 Pro | $1.25 (≤200k) / $2.50 (>200k) | $10.00 (≤200k) / $15.00 (>200k) | $0.31 / $0.625 |
Anthropic Claude Opus 4.1 | $15.00 | $75.00 | $1.50 |
DeepSeek V3.1 (Reasoner) | $0.56 | $1.68 | $0.07 |
분석 결과, 뚜렷한 가격 격차가 확인된다. Anthropic의 Opus 4.1은 특화된 작업에서의 최고 성능을 반영하여 프리미엄 고가 모델로 포지셔닝되어 있다. OpenAI와 Google은 주력 모델에 대해 경쟁력 있는 가격을 책정했다. 반면 DeepSeek의 API 가격은 급진적으로 낮아, 공격적인 시장 침투와 비용 파괴 전략을 명확히 보여준다. 이러한 가격 차이는 예산과 수행되는 작업의 가치에 따라 모델 선택에 큰 영향을 미칠 것이다.
현재의 벤치마크 군비 경쟁은 명시된 성능과 실제 유용성 사이에 간극을 만들고 있다. 모델들은 HumanEval과 같은 오래된 벤치마크에서 거의 완벽에 가까운 점수를 달성하고 있으며, 이로 인해 커뮤니티는 SWE-bench(실제 GitHub 이슈)나 GPQA(전문가 수준 질문)와 같이 더 어렵고 현실적인 벤치마크를 만들게 되었다.
그러나 이러한 새로운 벤치마크에서조차 성능은 종종 특정 에이전트 프레임워크나 프롬프팅 기술에 좌우된다.
이러한 현상은 다음과 같은 과정을 통해 발생한다.
초기 벤치마크(예: MMLU, HumanEval)는 기본적인 역량을 측정하는 좋은 지표였다. 모델이 발전함에 따라 이러한 벤치마크는 포화 상태가 되었고, 최상위 모델들이 대부분의 문제를 해결할 수 있게 되면서 차별화가 어려워졌다.
이에 대응하여 커뮤니티는 더 어렵고 실제적인 벤치마크(SWE-bench, Terminal-bench, GPQA)를 만들었다. 이제 연구소들은 이러한 새로운 벤치마크에서 점수를 극대화하기 위해 모델과 에이전트 구조를 최적화하는 경향을 보입니다.
예를 들어, 모델의 SWE-bench 점수는 테스트를 실행하는 데 사용된 에이전트 프레임워크에 크게 의존한다. 이는 잠재적인 단절을 만듭니다. SWE-bench 점수가 높은 모델이라도 그 성능이 벤치마크의 특정 형식에 고도로 조정되어 있다면, 좋은 범용 코딩 어시스턴트가 아닐 수 있다.
GPT-5가 높은 벤치마크 점수에도 불구하고 창의적인 대화 능력이 부족하다는 사용자 비판은 이러한 격차를 잘 보여준다. 따라서, 리더보드 점수에만 의존하는 것은 점점 더 위험해지고 있다.
기업과 개발자들은 특정 워크플로우에 대한 모델의 실제 유용성을 판단하기 위해 자체적인 애플리케이션별 평가를 수행해야 한다. 헤드라인 벤치마크 수치가 실제 일상적인 성능을 반영하지 않을 수 있기 때문이다.
앞서 논의된 바와 같이, 경쟁은 기본 모델의 역량에서 벗어나 그 주변에 구축된 에이전트 플랫폼의 힘과 사용성으로 이동하고 있다. 가장 견고하고 통합적이며 신뢰할 수 있는 도구 세트를 갖춘 회사가 기업 시장에서 승리할 것이다.
DeepSeek 및 Llama와 같이 Ollama를 통해 접근성이 높아진 고품질 오픈웨이트 모델의 확산은, 광범위한 작업에 대해 충분히 좋은 AI가 사실상 무료(하드웨어 비용 제외)가 되고 있음을 의미한다. 이는 독점 기업들이 진정한 최첨단 성능과 필수적인 플랫폼 기능을 제공함으로써 프리미엄 가격을 정당화하도록 압박할 것이다.
현재 세대의 에이전트는 대부분 사용자가 정의한 작업을 실행하는 수동적인 형태이다. AutoGen 및 CrewAI와 같은 프레임워크에서 암시하듯, 다음 세대는 더 적은 인간의 감독 하에 더 높은 수준의 목표를 달성하기 위해 여러 전문 에이전트가 협력하는 형태가 될 것이다.
신뢰성, 보안, 생태계 통합을 최우선으로 고려해야 한다. Anthropic의 Claude 4.1은 벤치마크 성능과 안전성 초점 덕분에 미션 크리티컬한 코딩 작업에 가장 적합한 선택이다. OpenAI의 GPT-5와 Google의 Gemini는 기존 Microsoft 또는 Google 워크플로우와의 깊은 통합이 가장 중요한 경우 강력한 경쟁자이다.
유연성과 비용 관리를 위해 오픈웨이트 생태계를 활용해야 한다. 신속한 프로토타이핑을 위해 Ollama를 사용하는 것을 추천한다. DeepSeek V3.1은 지정학적 위험을 감수할 수 있다면 맞춤형 애플리케이션 구축을 위한 최고의 성능 대비 비용 효율을 제공한다. Mistral의 Magistral은 투명한 추론이 필요한 애플리케이션에 강력한 선택지이다.
오픈웨이트 모델은 필수적이다. Meta의 Llama 4 Scout는 장문 컨텍스트 추론 연구를 위한 독보적인 플랫폼을 제공한다. DeepSeek의 모델은 광범위한 실험을 위한 고성능, 저비용의 기준선을 제공한다.
업계는 복합 오류 문제를 줄이면서 에이전트 시스템의 신뢰성과 추론 능력을 향상시키는 데 계속 집중할 것으로 보인다. 또한, 더 정교한 다중 에이전트 오케스트레이션 프레임워크의 개발과 함께, Phi-4와 같이 작고 매우 효율적인 모델이 계속 개선됨에 따라 온디바이스 및 엣지 배포에 대한 강조가 커질 것으로 예상된다. 중앙 집중식 독점 플랫폼 모델과 분산형 오픈소스 모델 간의 긴장 관계는 AI의 미래를 형성하는 핵심 동력으로 남을 것이다.