안녕하세요! 12 Days of OpenAI의 마지막 날, Day 12에 오신 것을 환영합니다!
Greg Kamradt(ARC Prize Foundation), Mark Chen(OpenAI), Sam Altman(OpenAI)
오늘은 OpenAI가 발표한 최신 AI 모델인 o3와 o3-mini의 주요 성과와 혁신적인 기능을 심층적으로 소개합니다.
이 업데이트는 AI 기술의 한계를 확장하며, 더 복잡하고 다양한 작업을 수행할 수 있는 가능성을 열었습니다. 🎉
이번에 공개된 o3와 o3-mini는 AI 기술의 정점을 보여주는 모델로, 고도의 문제 해결 능력과 효율성을 겸비하고 있습니다. 이 모델들은 코딩, 수학, 과학 등 여러 분야에서 우수한 성능을 입증하며, AI의 실질적인 응용 가능성을 크게 확장했습니다.
o3: 복잡한 기술적 문제를 해결하는 데 중점을 둔 최첨단 AI 모델로, 수학적 사고와 프로그래밍 기술에서 독보적인 성과를 기록했습니다.
o3-mini: 비용 효율성과 성능을 모두 고려하여 설계된 모델로, 다양한 작업 환경에서 활용 가능한 적응형 사고 시간(Adaptive Thinking Time) 기능을 지원합니다.
성능 개요
새로운 벤치마크에서의 성과:
수학과 과학 분야에서의 뛰어난 성과:
ARC(Abstraction and Reasoning Corpus) 벤치마크의 새로운 기록:
이 모델들의 성과는 AI의 기술적 발전이 실제 응용에서 얼마나 큰 가치를 창출할 수 있는지 보여줍니다.
일반 컴퓨팅과 고성능 컴퓨팅의 차이는 아래 X post에서 살펴보실 수 있습니다.
SWE 벤치마크는 실제 소프트웨어 개발 과제를 기반으로 하며, o3는 이전 모델(o1) 대비 20% 이상의 성능 향상을 기록했습니다. 이는 o3가 소프트웨어 환경에서의 AI 적용 가능성을 획기적으로 증명한 사례입니다. 이 성과는 AI가 실제 개발 환경에서 효율적으로 활용될 수 있는 가능성을 열어줍니다.
GPQA Diamond: 박사 수준 과학 질문에 대한 평가에서 o3는 **87.7%**의 정확도를 달성하며, 이전 모델 대비 10% 향상된 결과를 보여주었습니다.
이는 AI가 과학적 질문에 대한 정밀한 응답을 제공할 수 있는 능력을 입증합니다.
가장 도전적인 수학 벤치마크 중 하나인 EpochAI Frontier Math에서 o3는 25.2% 정확도를 기록했습니다.
이 벤치마크는 전문가 수준의 수학 문제 해결 능력을 평가하며, AI 모델이 복잡한 문제를 해결하는 데 있어 탁월한 잠재력을 가지고 있음을 보여줍니다.
기존 AI 모델들이 2% 미만의 정확도를 보인 점과 비교하면, o3의 성과는 혁신적입니다.
ARC AGI(Abstraction and Reasoning Corpus) 벤치마크는 AI의 일반화 능력을 평가하기 위해 개발된 테스트입니다.
ARC 벤치마크는 AI의 학습 능력뿐만 아니라 창의적인 문제 해결 능력을 평가하기 위한 것으로, o3는 이를 통해 AI의 미래 가능성을 입증했습니다.
ARC 벤치마크는 아래와 같은 문항들로 구성되어 있습니다.
위에 예시가 쉬워서 "에이~ 쉽네" 했다가.. 다른 문제 보고 "오호라~🤔" 했던 1인 (Samples are from https://arcprize.org/)
Hongyu Ren(OpenAI), Mark Chen(OpenAI), Sam Altman(OpenAI)
o3-mini는 다양한 작업 환경에서 뛰어난 성능을 발휘하면서도 비용 효율성을 극대화한 모델입니다.
다음과 같은 특징이 있습니다:
1) Codeforces 코딩 성능
o3-mini
는 Codeforces 벤치마크에서 ELO 점수 1697 (low), 1997 (medium), 2073 (high)을 기록하며 기존 모델 대비 뛰어난 성능을 입증했습니다.
2) 비용 효율성 비교
오른쪽 그래프는 o3
와 o3-mini
가 다양한 설정에서 얼마나 효율적으로 작동하는지를 보여줍니다.
3) AIME 2024 성능과 레이턴시
AIME 2024에서 o3-mini는 low, medium, high 설정별로 각각 61.0%, 78.2%, 83.6%의 정확도를 기록하며 o1-mini보다 높은 성능을 보였습니다.
레이턴시 측면에서 o3-mini는 low 설정에서 가장 빠른 응답 시간을 제공하며, 고성능 설정(high)에서도 여전히 높은 정확도를 유지합니다.
o3와 o3-mini는 다양한 API 호출 시 더 효율적이고 구조화된 출력을 제공합니다.
아래 그래프는 모델의 내부 함수 호출과 출력 구조화에서의 성능을 보여줍니다.
1) 내부 출력 구조화(Internal Structured Outputs)
2) 내부 함수 호출(Internal Function Calling)
3) 함수 호출 및 출력 구조화 결합(Internal Function Calling with Structured Outputs)
4) 라이브벤치 코딩(Livebench Coding)
Deliberative Alignment는 새로운 안전성 훈련 기법으로, AI의 신뢰성과 안전성을 크게 향상시킵니다.
주요 특징
성능 그래프
위 그래프는 다양한 모델이 Deliberative Alignment를 통해 강력한 거부(Strong Reject)
와 우수한 출력(Goodness@Q1)
을 얼마나 잘 달성했는지를 보여줍니다.
이 기술은 AI 모델이 점점 더 복잡해지는 사용자 요구와 환경에 적응하면서도 안전성을 유지할 수 있도록 돕습니다.
이번 Day 12 발표는 AI 기술의 새로운 장을 열었습니다.
이렇게 12일간의 길지만 짧은 가슴 벅찬 12 Days of OpenAI를 정리해봤는데요.
내년에는 어떤 식으로 발전될지 더 궁금합니다. 앞으로도 AI 기술의 진보를 함께 기대해 주세요.
12일동안 함께 해주셔서 감사합니다! 💌