순위 | 모델명 | 원점수 | 추정 등급컷(2025.11.18기준) |
---|---|---|---|
🥇1st | o1-Preview | 97 | 1등급 |
🥈2nd | o1-mini | 78 | 4등급 |
🥉3rd | gpt-4o | 75 | 4등급 |
4th | gpt-4o-mini | 59 | 5등급 |
5th | gpt-3.5-turbo | 16 | 8등급 |
o1-preview가 2025 수능 국어 97점을 달성했다! 리더보드를 만들고 실험을 해보면서 llm의 언어수준을 파악했는데 무려 문제 하나만 틀리고 전부 맞는 성능이 나오는경우는 놀라운 결과이다. 한국어 언어 능력을 평가하는 가장 공신력있는 수능 국어 문제를 한문제 빼고 맞췄다.
이전 수능 국어 10개년 LLM 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다. LLM이 인간의 언어능력을 따라가기에는 아직 멀었다는것을 체감할 수 있었다.
하지만 2024 수능에서 o1-preview는 88점 1등급을 달성하여 인간과 함께 언어능력이 우수하다정도였지만 2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 Performance를 뛰어넘을 시기가 머지 않았음을 보여준다.
벤치마크 배경은 Nomadamas에서의 LLM으로 수능 국어 1등급을 달성해보자! 프로젝트에서 시작했다. 한창 gpt-4가 출시되어 유명했던 프롬프트 엔지니어링을 통해서 극악무도한 난이도의 수능국어를 출제하는 KICE를 깨보자는 프로젝트였다.
Nomadmas의 프로젝트는 수많은 프롬프트 엔지니어링 실험을 통해서 나온 양질의 프롬프트를 기반으로 이번에는 llm 모델들의 퍼포먼스를 비교하는것에 초점을 맞췄다.
이에 수능 국어 10개년을 기반으로 지금까지 나온 모델들중 어느모델이 가장 성능이 높은지에 대한 리더보드를 만들게 되었고 그것이 수능 국어 llm leaderboard이 되었다.
프로젝트의 주요한 목적은 다음과 같다.
2015년부터 2024년까지의 수능 국어 10개년 데이터를 수집했다. 수능 국어 pdf에서 text만 추출하고 추출한 텍스트를
로 구분하여 Json으로 파싱했다.
[A]나 [B]와 같은 특정 단어나 문단, 문장을 가리키는 경우는 해당부분을 소괄호로 묶어 표시했다. 표나 사진 같은 경우는 해당 자료를 설명하는 설명 글로 직접 적어서 대체했다.
만들어진 Json 파일들을 기반으로 qa와 corpus로 파싱하여 AutoRAG용 데이터로 만들었다.
데이터셋 구성에 대한 자세한 내용은 여기를 참고해주세요
AutoRAG는 최적의 RAG파이프라인을 본인이 활용하는 데이터에 맞게 자동으로 최적화해준다.
AutoRAG에서 지원하는 기능중에서 yaml파일을 활용하여 다양한 모델들을 간편하게 접근할 수 있고, 프롬프트를 갈아끼울수 있는 GOAT 기능이 있어서 이번 수능 벤치마크 리더보드에 활용하였다.
2023 수능기준으로 본인이 궁금한 모델들의 performance를 확인할 수 있는 미니 테스트 기능을 추가했으니 궁금하신 분은 수능벤치마크 미니테스트를 확인해주세요!
대회에서는 각 모델이 제시된 문제에 대해 제출한 답안이 실제 정답과 일치하는지 여부를 측정한다. 이때 기존에 정의해놓은 답변 형식에 맞춰 모델 최종답안을 내놓게 되면 이를 보고 LLM이 정답을 추출한다.
추출한 정답과 기존에 만들어놓은 정답지를 기준으로 채점을 하여 최종점수를 매긴다.
리더보드의 순위는 각 해의 문제의 난이도를 반영할 수 있는 표준점수의 평균으로 순위를 매겼다.
한국 수능과 모의고사 일정에 맞춰 지속적으로 그시점까지 공개된 LLM(즉, 신규 문제를 학습할 여지가 없어 데이터 리키지가 안발생하는 LLM)들을 평가할 계획이다.
목표는 특정 국가나 기업에 종속되지 않은 오픈소스 LLM이 한국 수능 1등급에 도달시키는것