현재 LLM의 비교 분석

DEVHOB·2025년 3월 11일

AI AI 순위 GPT LLM Open AI 라마 인공지능 제미나이 클로드

잡다한 IT지식

목록 보기

3/3

출처: https://www.aitimes.com/news/articleView.html?idxno=163221

1. 멀티태스크 추론(MMLU)

1위: 오픈AI의 GPT-4o (88.7%)
2위: 메타의 라마 3.1 405B (88.6%)
3위: 앤트로픽의 클로드 3.5 소네트 (88.3%)

2. 코딩 정확도(HumanEval)

1위: 앤트로픽의 클로드 3.5 소네트 (92%)
2위: 오픈AI의 GPT-4o (90.2%)
3위: 메타의 라마 3.1 405B (89%)

3. 수학적 능숙도(MATH)

1위: 오픈AI의 GPT-4o (76.6%)
2위: 메타의 라마 3.1 405B (73.8%)
3위: 오픈AI의 GPT-4 터보 (72.5%)

4. 지연 시간(Latency)

1위: 메타의 라마 3.1 8B (0.3초)
2위: 오픈AI의 GPT-3.5 터보 (0.4초)
3위: 메타의 라마 3.1 70B (0.4초)

5. 비용(Cost)

1위: 메타의 라마 3.1 8B
2위: 구글의 제미나이 1.5 플래시
3위: 오픈AI의 GPT-4o 미니

6. 컨텍스트 창(Context Window)

1위: 구글의 제미나이 1.5 플래시 (100만 토큰)
2위: 앤트로픽의 클로드 3 및 3.5 (20만 토큰)
3위: 오픈AI의 GPT-4 터보와 GPT-4o 계열 (12만 8,000 토큰)

7. 사실 정확성(Factual Accuracy)

1위: 앤트로픽의 클로드 3.5 소네트

어느 전분가분이 이제는 LLM은 저렴한 거 사용하는 게 맞다고 우스게소리로 하셨는데,
정말 후발 주자들의 AI 성능을 보면 상향 평준화 된 게 맞는 거 같네요!

배운 내용 복습 및 새로운 내용 학습

이전 포스트

오케스트레이션(Orchestration)이란???

0개의 댓글