Llama 3의 성능을 pre-trained, post-trained, safety 측면에서 실험했다.
Pre-Trained
Llama 3와 크기가 유사한 다양한 모델과 비교했다. 경쟁 모델의 결과는 공개된 결과 또는 Meta에서 재현할 수 있었던 결과 중 최고 점수를 기준으로 비교했다. 아래의 4가지 항목에 대해서 평가했다.
Standard Benchmarks
표준 벤치마크에서의 모델 품질평가
Robustness
다중 선택형 질문 설정의 변화에 대한 강건성 평가
Adversarial Benchmarks
적대적 평가(모델의 강건성 평가 위한 고의적으로 설계된 어려운 예제)
Contamination Analysis
학습 데이터 오염이 평가에 미치는 영향 분석
Standard Benchmarks
8가지 주요 카테고리에 대해서 평가 진행
카테고리
데이터셋
Reading Comprehension(독해)
SQuAD V2 (Rajpurkar et al., 2018) QuaC (Choi et al., 2018) RACE (Lai et al., 2017)
Code(코드)
HumanEval (Chen et al., 2021) MBPP (Austin et al., 2021)
Commonsense reasoning/understanding (상식추론)
CommonSenseQA (Talmor et al., 2019) PiQA (Bisk et al., 2020) SiQA (Sap et al., 2019) OpenBookQA (Mihaylov et al., 2018) WinoGrande (Sakaguchi et al., 2021)
Math,reasoning, and problem solving (수학,논리 및 문제해결)
GSM8K (Cobbe et al., 2021) MATH (Hendrycks et al., 2021b) ARC Challenge (Clark et al., 2018) DROP (Dua et al., 2019) WorldSense (Benchekroun et al., 2023)
Adversarial(적대적 평가)
Adv SQuAD (Jia and Liang, 2017) Dynabench SQuAD (Kiela et al., 2021) GSM-Plus (Li et al., 2024c) PAWS (Zhang et al., 2019)
Long context(긴 문단)
QuALITY (Pang et al., 2022) many-shot GSM8K (An et al., 2023a)
Aggregate(종합 평가)
MMLU (Hendrycks et al., 2021a) MMLU-Pro (Wang et al., 2024b) AGIEval (Zhong et al., 2023) BIG-Bench Hard (Suzgun et al., 2023)
Llama 3 405B 와 비교 가능한 모든 모델이 사전학습 모델이 공개되지 않거나, API에 대한 로그확률 접근을 제공하지 않은 경우 벤치마크에 대한 재계산이 불가
벤치마크 세트는 어떤 모 분포에서 추출된 유한 표본이기 때문에 모델의 성능에 대한 추정 값임 → 95% 신뢰구간을 통해 분산에 대해 보고 (가우시안 분포)
CI(S)=1.96×NS×(1−S)
S: 관측된 벤치마크 점수
N: 벤치마크 표본 크기
ex) S : 0.8 (정확도 80%)이고, N : 100 (데이터셋 크기) 인 경우, CI(S)=1.96×1000.8×(1−0.8)=0.0784
→ 72.16~87.84 신뢰구간 (모델의 실제 정확도가 95% 확률로 이 범위 안에 있을 것이다.)
거의 모든 카테고리에서 경쟁 모델 능가
Commonsense 벤치마크에서는 성능차이가 크지않음
→ saturated 상태일 가능성이 있기 때문
Llama 3 405B모델이 대체로 이전의 오픈소스 모델을 능가함
Robustness
pre-trained 모델이 다중 선택형 질문(MCQ) 설정에서 선지를 얼마나 강건하게 선택하는지 평가했다. 아래의 요인으로 강건성을 평가했다. (MMLU 벤치마크 사용)
few-shot label bias
소수 예제에 대한 라벨 편향성 평가
동일한 라벨을 가진 예제들 A A A A
다른 라벨을 가진 예제들 A B C D
두 가지 라벨만 가진 예제들 A A B B or A A C C
label variants
동일한 정답을 나타내는 다양한 라벨표현이 모델의 성능에 미치는 영향 평가
언어에 독립적인 문자로 구성된 라벨 $ & # @
사용이 드문 문자로 구성된 라벨 œ § з u
숫자 라벨 1 2 3 4
변형된 라벨 A B C D → A) B) C) D)
answer order
답안 선택지의 순서 변경이 모델의 성능에 미치는 영향 평가
정답 라벨을 고정된 순열로 재배치 A B C D → A B D C
prompt format
프롬프트 형식이 모델의 성능에 미치는 영향 평가
간단한 질문 프롬프트 질문에 답해라
전문성 강조 프롬프트 모델이 전문가임을 명시
최선의 답변 요청 프롬프트 가장 좋은 답변 선택하라 명시
라벨이 변형되어도 분포가 거의 유사함($ & # @은 조금 성능이 떨어짐)
모든 예시가 주어지지않고, 특정 예시만 제시되어도 성능이 비슷하게 나옴 (한가지 예시만 등장하면 조금 떨어짐)
정답 순서 변경이 있어도 성능이 일관됨
프롬프트 형식의 변화에도 일관된 성능을 유지
Adversarial Benchmarks
특별히 어려운 문제에 대해 얼마나 잘 대응하는지와 벤치마크에 대한 과적합 여부를 확인하는 데 초점을 맞췄다. 일반적인 데이터셋에 과적합되었다면, 특정 패턴이나 입력에 대해 잘못된 결과를 출력한다.