현재 LLM의 비교 분석

DEVHOB·2025년 3월 11일

잡다한 IT지식

목록 보기
3/3
post-thumbnail

출처: https://www.aitimes.com/news/articleView.html?idxno=163221

1. 멀티태스크 추론(MMLU)

  • 1위: 오픈AI의 GPT-4o (88.7%)
  • 2위: 메타의 라마 3.1 405B (88.6%)
  • 3위: 앤트로픽의 클로드 3.5 소네트 (88.3%)

2. 코딩 정확도(HumanEval)

  • 1위: 앤트로픽의 클로드 3.5 소네트 (92%)
  • 2위: 오픈AI의 GPT-4o (90.2%)
  • 3위: 메타의 라마 3.1 405B (89%)

3. 수학적 능숙도(MATH)

  • 1위: 오픈AI의 GPT-4o (76.6%)
  • 2위: 메타의 라마 3.1 405B (73.8%)
  • 3위: 오픈AI의 GPT-4 터보 (72.5%)

4. 지연 시간(Latency)

  • 1위: 메타의 라마 3.1 8B (0.3초)
  • 2위: 오픈AI의 GPT-3.5 터보 (0.4초)
  • 3위: 메타의 라마 3.1 70B (0.4초)

5. 비용(Cost)

  • 1위: 메타의 라마 3.1 8B
  • 2위: 구글의 제미나이 1.5 플래시
  • 3위: 오픈AI의 GPT-4o 미니

6. 컨텍스트 창(Context Window)

  • 1위: 구글의 제미나이 1.5 플래시 (100만 토큰)
  • 2위: 앤트로픽의 클로드 3 및 3.5 (20만 토큰)
  • 3위: 오픈AI의 GPT-4 터보와 GPT-4o 계열 (12만 8,000 토큰)

7. 사실 정확성(Factual Accuracy)

  • 1위: 앤트로픽의 클로드 3.5 소네트

어느 전분가분이 이제는 LLM은 저렴한 거 사용하는 게 맞다고 우스게소리로 하셨는데,
정말 후발 주자들의 AI 성능을 보면 상향 평준화 된 게 맞는 거 같네요!

profile
배운 내용 복습 및 새로운 내용 학습

0개의 댓글