출처: https://www.aitimes.com/news/articleView.html?idxno=163221
1. 멀티태스크 추론(MMLU)
- 1위: 오픈AI의 GPT-4o (88.7%)
- 2위: 메타의 라마 3.1 405B (88.6%)
- 3위: 앤트로픽의 클로드 3.5 소네트 (88.3%)
2. 코딩 정확도(HumanEval)
- 1위: 앤트로픽의 클로드 3.5 소네트 (92%)
- 2위: 오픈AI의 GPT-4o (90.2%)
- 3위: 메타의 라마 3.1 405B (89%)
3. 수학적 능숙도(MATH)
- 1위: 오픈AI의 GPT-4o (76.6%)
- 2위: 메타의 라마 3.1 405B (73.8%)
- 3위: 오픈AI의 GPT-4 터보 (72.5%)
4. 지연 시간(Latency)
- 1위: 메타의 라마 3.1 8B (0.3초)
- 2위: 오픈AI의 GPT-3.5 터보 (0.4초)
- 3위: 메타의 라마 3.1 70B (0.4초)
5. 비용(Cost)
- 1위: 메타의 라마 3.1 8B
- 2위: 구글의 제미나이 1.5 플래시
- 3위: 오픈AI의 GPT-4o 미니
6. 컨텍스트 창(Context Window)
- 1위: 구글의 제미나이 1.5 플래시 (100만 토큰)
- 2위: 앤트로픽의 클로드 3 및 3.5 (20만 토큰)
- 3위: 오픈AI의 GPT-4 터보와 GPT-4o 계열 (12만 8,000 토큰)
7. 사실 정확성(Factual Accuracy)
어느 전분가분이 이제는 LLM은 저렴한 거 사용하는 게 맞다고 우스게소리로 하셨는데,
정말 후발 주자들의 AI 성능을 보면 상향 평준화 된 게 맞는 거 같네요!