LLaMA
https://arxiv.org/abs/2302.13971
ABSTRACT
- LLaMA는 비교적 가벼운 모델, 오픈 소스 데이터만 사용한 모델
- LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)보다 뛰어난 성능
- LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 유사한 성능
1. INTRODUCTION
- 기존 대부분의 LLM
- 적합한 양의 텍스트로 학습한 후, 몇 가지 예시(few-shot)를 통해 task 수행
- 모델 규모 확장에 중점을 둠
- ‘더 많은 파라미터 → 더 높은 성능’ 이라는 가정에 기초
- 최근
-
규모는 더 작으나, 더 많은 데이터로 학습한 모델이 가장 좋은 성능을 달성함
-
스케일링 법칙을 바탕으로 함
-
특정 훈련 계산 예산 내에서 데이터셋과 모델 크기를 최적으로 확장하는 방법을 결정하는 것
-
그러나, 추론 예산은 고려하지 않음
→ 특정 성능 목표가 주어졌을 때, 훈련이 빠른 모델보다는 추론이 빠른 모델이 더 중요
만약 대규모 언어 모델을 서비스하고자 한다면, 아마 기업에서 선호하는 모델은 (동일 성능일 때) 훈련 시간이 짧은 모델이 아닌, 추론 시간이 짧은 모델일 것
- LLaMA
-
다양한 추론 예산에서 최고의 성능을 달성할 수 있는 언어 모델
-
추론 속도를 높이기 위해 학습 시간을 늘리더라도, 추론 시간은 줄이는 방법을 사용
-
일반적으로 사용되는 것보다 더 많은 토큰으로 학습
-
70억에서 650억 개의 파라미터로 구성
-
Transformer 아키텍처 수정하여 사용
⇒ 따라서 이 모델은 규모는 줄이면서도, 일반적으로 사용되는 것보다 더 많은 토큰을 학습함으로써 학습 시간은 고려하지 않고 추론 시간을 줄이고자 함
- 해당 연구 (LLaMA) 의의
- 성능 측면
- 기존의 SOTA 모델들과 경쟁력 있는 성능 보임
- GPT-3보다 10배 작음에도 불구하고 더 좋은 성능
- 단일 GPU에서 실행 가능 → LLM 접근을 더 쉽게 만듦
- 가장 큰 650억 파라미터 모델의 경우, Chinchilla나 PaLM-540B 등과도 경쟁력 있음
- 오픈 소싱 측면
- Chinchilla, PaLM, 또는 GPT-3와 달리 공개된 데이터만을 사용
- 기존 모델들은 비공개, 혹은 공개이더라도 경쟁력 떨어졌음.
- 그러나 경쟁력과 오픈 소싱 가능하다는 두 이점 모두 가짐
2. Approach
- 이전 연구들과 유사
- Chinchilla 확장 법칙에서 영감을 받았습니다.
- 우리는 많은 양의 텍스트 데이터를 사용하여 대형 Transformer 모델을 훈련
- 훈련에는 표준 옵티마이저를 사용
2.1 Pre-training Data
사전 훈련 데이터와 전처리 방법
- 사전 훈련 데이터는 다양한 출처/ 도메인 포괄
- 다른 대규모 언어 모델 훈련에 사용된 데이터 소스를 주로 재사용
- 하지만 공개적으로 이용 가능하고 오픈소싱에 호환되는 데이터만 사용
![[표 1] 훈련 세트에서 각 데이터가 차지하는 비율](https://prod-files-secure.s3.us-west-2.amazonaws.com/f71b219d-0f91-4412-a236-3d8f7ca2589a/534d29d7-ad6e-48bf-b662-4fbced839f98/image.png)
[표 1] 훈련 세트에서 각 데이터가 차지하는 비율
- English CommonCrawl [67%]
- English CommonCrawl : Common Crawl 프로젝트에서 수집한 웹 페이지 중에서 영어로 된 텍스트 데이터만을 추출한 부분
- CommonCrawl : 비영리단체에서 전 세계의 다양한 언어로 작성된 웹 페이지를 크롤링하여 제공하는 방대한 양의 웹 데이터
- dumps: 특정 시점의 전체 데이터를 추출해서 데이터베이스나 파일 시스템으로 추출해내는 것
- 다섯 개의 CommonCrawl 덤프를 CCNet 파이프라인으로 전처리
- 중복된 데이터는 제거,
- fastText 선형 분류기를 사용한 비영어 페이지 제거를 위한 언어 식별 작업
- n-gram 언어 모델을 사용한 저품질 콘텐츠를 필터링
- Wikipedia의 참조 페이지와 무작위 샘플 페이지를 구분하는 선형 모델을 훈련하고, 참조로 분류되지 않은 페이지는 제외
- C4 [15%]
- 다양한 전처리된 CommonCrawl 데이터셋을 사용하는 것이 성능을 개선시킨다는 것을 실험적으로 확인함
- 따라서 공개적으로 이용 가능한 C4 데이터셋 (Raffel et al., 2020)을 데이터에 포함시킴
- C4의 전처리에도 중복 제거 및 언어 식별 단계가 포함되어 있음
- CCNet과의 주요 차이점: 주로 문장부호의 존재 여부나 웹페이지의 단어와 문장 수 등과 같은 휴리스틱을 기반으로 한 품질 필터링
- Github [4.5%]
- Google BigQuery에서 제공하는 공개적으로 이용 가능한 GitHub 데이터셋
- 그중 MIT 라이선스에 따라 배포된 프로젝트만 사용
- 행 길이나 영숫자 문자의 비율과 같은 휴리스틱을 기반으로 저품질 파일을 필터링하고, 정규 표현식을 사용하여 헤더와 같은 보일러플레이트를 제거
- 정확한 일치를 통해 결과 데이터셋에서 중복 제거
- Wikipedia [4.5%]
- 2022년 6월부터 8월까지의 Wikipedia 덤프를 추가합니다. 이는 라틴 문자 또는 키릴 문자 스크립트를 사용하는 20개 언어(bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk)를 포함합니다. 데이터를 처리하여 하이퍼링크, 주석 및 기타 서식 관련 보일러플레이트를 제거합니다.
- Gutenberg and Books3 [4.5%]
- 두 개의 도서 말뭉치가 포함
- 퍼블릭 도메인에 속하는 Gutenberg 프로젝트의 도서와 대규모 언어 모델을 훈련하기 위한 공개적으로 이용 가능한 데이터셋인 ThePile의 Books3 섹션(Gao et al., 2020)을 포함
- 도서 수준에서 중복을 제거하고, 90% 이상의 내용이 겹치는 도서를 제거
- ArXiv [2.5%]
- arXiv 라텍스 파일을 처리하여 과학 데이터를 데이터셋에 추가
- Lewkowycz et al. (2022)을 따라 첫 번째 섹션 이전의 모든 내용과 레퍼런스 목록 제거
- .tex 파일에서 주석을 제거하고, 사용자가 작성한 인라인 정의와 매크로를 확장하여 논문 간의 일관성을 높임
- Stack Exchange [2%]
- 다양한 도메인을 다루는 고품질 질문과 답변 웹사이트인 Stack Exchange의 덤프포함
- 28개의 가장 큰 웹사이트의 데이터만 유지하고, 텍스트에서 HTML 태그를 제거하고, 답변을 점수에 따라 (높은 점수부터 낮은 점수 순서로) 정렬
- Tokenizer
- 우리는 bytepair encoding (BPE) 알고리즘(Sennrich et al., 2015)을 사용하여 데이터를 토큰화 함
- 이때, 모든 숫자를 개별 숫자로 분리하고, 알 수 없는 UTF-8 문자를 분해하기 위해 바이트로 대체 → 이 과정은 SentencePiece (Kudo and Richardson, 2018)의 구현을 사용
- 전반적으로, 전체 훈련 데이터셋은 토큰화 후 약 1.4조 개의 토큰 포함
- 대부분의 훈련 데이터에서는 각 토큰이 훈련 중에 한 번만 사용
- Wikipedia와 Books 영역에서는 약 두 번의 epoch 수행
2.2 Architecture
- Transformer 아키텍처를 기반으로 하고, 이후 제안된 여러 개선 사항을 활용
- PaLM과 같은 다른 모델에서 사용된 개선 사항들을 참고
- 원래 아키텍처와의 주요 차이점과, 변경 사항에 대한 출처(영감)
- Pre-normalization [GPT3].
- 기존: 서브레이어의 출력을 정규화, Layernorm 사용
- 바뀐점: 서브레이어에 들어가는 입력값을 정규화, RMSNorm 사용
- Zhang과 Sennrich(2019)이 도입한 RMSNorm 정규화 함수를 사용
- 훈련의 안정성을 향상시키기 위해
- SwiGLU activation function [PaLM].
- 기존: ReLU 활성화 함수
- 바뀐점: ReLU의 비선형을 SwiGLU로 변경하여 사용
- Shazeer(2020)이 도입한 PaLM에서 사용된 방법, 그러나 PaLM에서 사용된 4d 대신 2/3 × 4d의 차원을 사용
- 성능을 향상시키기 위해
- Rotary Embeddings [GPTNeo].
-
기존: absolute positional embedding
-
바뀐점: Rotary positional embeddings (RoPE)를 사용
-
Su et al. (2021), 이 도입한 GPTNeo에서 사용된 방법

2.3 Optimizer
- 옵티마이저: AdamW
- 하이퍼파라미터
- beta1 = 0.9, beta2 = 0.95
- learning rate이 훈련 과정 동안 변하는 방식은 Cosine learning rate schedule 방법을 채택 → 이를 사용하여 최종 learning rate는 최대의 10%가 되게끔 조정
- 가중치 감쇠는 0.1로, gradient clipping은 1.0
- 2,000번의 워밍업 단계를 사용합니다.
- 모델 크기에 따라 학습률과 배치 크기를 조정

2.4 Efficient implementation
훈련 속도를 향상시키기 위해 다양항 최적화 방법 사용
- 메모리와 실행 시간 단축
- 멀티 헤드 어텐션의 효율적인 구현을 사용
- 어텐션 가중치를 적용하지 않고, 마스크된 키/쿼리 스코어를 계산하지 않는 방식
- xformers 라이브러리에서 사용 가능
- 또한 역전파 중에 다시 계산되는 활성화량을 체크포인팅 방법을 통해 줄임
- pytorch의 기본 기능에 의존하지 않고, 역전파 함수를 수동으로 구현함으로써 달성
- 메모리 양 단축
- 모델과 시퀀스 병렬성을 사용하여 메모리 사용량을 줄임
- 활성화 값의 계산과 GPU 간 통신을 가능한 한 겹쳐서 수행
- 효과 이러한 최적화 방법을 사용하여 65B 파라미터 모델을 훈련시키 경우 ⇒ 80GB의 RAM을 가진 2048개의 A100 GPU에서 약 380 토큰/초의 처리 속도 ⇒ 1.4조 토큰을 포함한 데이터셋을 대상으로 훈련하는 데 약 21일이 걸린다는 의미
- 학습 시키는 비용
![[표5] 모델 훈련에 든 비용](https://prod-files-secure.s3.us-west-2.amazonaws.com/f71b219d-0f91-4412-a236-3d8f7ca2589a/78e784b9-f21b-43e7-9c5e-6903baaf1733/image.png)
[표5] 모델 훈련에 든 비용
3. Main results
- 이전 연구(Brown et al., 2020)를 따라, LLaMA에서는 zero-shot과 few-shot task고려
- 총 20개의 벤치마크에서 결과를 보고합니다:
- zero shot : 태스크에 대한 텍스트 설명과 테스트 예제를 제공합니다. 모델은 답변을 생성하거나 제안된 답변을 순위화합니다.
- few shot : 태스크에 대한 (1-64)가지 예제와 테스트 예제를 제공합니다. 모델은 이 텍스트를 입력으로 받아 답변을 생성하거나 순위화합니다.LLaMA의 평가는 free-form generation tasks 와 multiple choice tasks 를 통해 평가했습니다.
- 주요 비교 모델
- GPT-3, Gopher, Chinchilla, PaLM 같은 비공개 모델들
- OPT, GPT-J, GPT-Neo와 같은 공개 소스 모델
- 평가
- 자유 형식 생성 작업
- 다지선다형 작업
- 주어진 문맥을 바탕으로 가장 적절한 완료를 선택하는 것이 목표
- Gao et al.(2021) 방법 사용:
모델이 생성한 각 답변의 문자 수에 따라 그 답변의 확률을 조정
- 그러나 특정 데이터셋(OpenBookQA, BoolQ)에서는, Brown et al.(2020) 방법 사용 : 답변이 얼마나 "Answer:"라는 단어와 연관이 있는지에 따라 확률을 조정
⇒ P(완료|문맥)/P(완료|“Answer:”)
3.1 Common Sense Reasoning
- 8가지 표준 상식 추론 벤치마크 고려
- BoolQ: yes/no 질문에 대한 응답을 다루는 데이터셋.
- PIQA: 물리적 상식에 대한 질문을 다루는 데이터셋.
- SIQA: 사회적 상식을 평가하는 질문들로 구성된 데이터셋.
- HellaSwag: 문맥에 맞는 가장 자연스러운 문장을 선택하는 문제를 포함한 데이터셋.
- WinoGrande: 문맥에 따라 명확한 의미 해석을 요구하는 문제를 다루는 데이터셋.
- ARC: 과학적 질문에 대한 응답을 요구하는 문제를 포함한 데이터셋으로, "easy"와 "challenge"로 나뉩니다.
- OpenBookQA: 과학적 지식을 기반으로 추론해야 하는 질문들로 구성된 데이터셋.
- 클로즈(Cloze) 및 위노그라드(Winograd) 스타일의 작업과 다지선다형 질문 포함
- 평가

- LLaMA-65B vs Chinchilla-70B
- BoolQ를 제외한 모든 벤치마크?에서 Chinchilla-70B 능가
- LLaMA-65B vs PaLM-540B
- BoolQ와 WinoGrande를 제외한 대부분의 벤치마크에서 PaLM-540B 능가
- 제로샷의 성능이 GPT-3과 비교해서 상당히 좋음
- 약 7B 모델만 써도 GPT-3와 비슷한 수치, 경쟁력 갖춤!
3.2 Closed-book Question Answering
- 두 가지 클로즈드 북 질문 응답 벤치마크 Natural Questions와 TriviaQA 고려
- Natural Questions (NQ): 구글 검색을 통해 실제 사용자들이 입력한 질문들로 구성된 데이터셋으로, 질문에 대한 정확한 답변을 요구합니다.
- TriviaQA: 일반적인 상식이나 퀴즈 문제들에 대한 질문 응답을 다루는 데이터셋으로, 정확한 답을 찾는 능력을 평가합니다.
- 질문에 대한 답을 제공할 때, 참고할 수 있는 문서 없이 정확한 답을 찾아야 함
- 두 벤치마크 모두에서 LLaMA-65B 모델이 제로샷 및 소수샷 설정에서 최상의 성능을 보였습니다.
- 특히, LLaMA-13B 모델도 GPT-3와 Chinchilla와 비교할 때 5-10배 더 작음에도 불구하고 좋은 성능
- LLaMA-13B 모델은 추론 시 단일 V100 GPU에서 실행 가능
3.3 Reading Comprehension
- 독해 평가 벤치마크 RACE 고려
- RACE : 중국 중고등학생들이 치른 영어 독해 시험에서 나온 문제
- LLaMA-65B 모델은 PaLM-540B와 비슷한 성능
- LLaMA-13B 모델은 GPT-3보다 약간 더 나은 성능
3.4 Mathematical reasoning
- 두 가지 수학적 추론 벤치마크 MATH와 GSM8k 고려
- MATH: 중고등학교 수학 문제 12,000개로 구성된 데이터셋입니다.
- GSM8k: 중학교 수학 문제로 구성된 데이터셋입니다.
- Minerva는 수학 데이터로 미세 조정된 PaLM 모델이지만, PaLM과 LLaMA는 그렇지 않습니다.
- LLaMA-65B 모델은 수학 데이터로 미세 조정되지 않았음에도 GSM8k에서 Minerva-62B 능가
3.5 Code generation
- HumanEval과 MBPP 벤치마크에서 자연어 설명을 기반으로 코드를 작성하는 능력을 평가
- HumanEval: 주어진 함수 설명과 테스트 케이스를 기반으로 Python 프로그램을 작성해야 하는 벤치마크.
- MBPP: 자연어로 된 프로그램 설명을 바탕으로 Python 코드를 작성하는 문제들로 구성된 벤치마크.
- LLaMA는 코드 관해서 특별히 훈련되지 않은 다른 일반 모델들 능가
- LLaMA 13B 및 65B 모델은 각각 LaMDA 137B 및 PaLM 62B 모델 능가
- 코드를 생성하는 성능은 코드 전용 데이터로 미세 조정할 경우 더욱 향상될 수 있을 것으로 보이나, 본 논문에서는 코드 토큰으로의 미세 조정은 다루지 않음
3.6 Massive Multitask Language Understanding
- 대규모 다중 작업 언어 이해 벤치마크 MMLU 고려
- Hendrycks et al.(2020)이 제안
- MMLU는 인문학, STEM, 사회과학 등 다양한 지식을 다루는 다지선다형 질문들로 구성
- 5-shot 설정에서 모델 평가
- LLaMA-65B 모델은 Chinchilla-70B와 PaLM-540B 모델보다 평균적으로 성능이 몇 퍼센트 낮았습니다.
- 이는 우리의 사전 훈련 데이터에서 제한된 양의 책과 학술 논문만 사용한 반면, Chinchilla와 PaLM 같은 모델들은 최대 2TB의 방대한 책 데이터를 사용해 훈련함.
- 이로 인해 Gopher, Chinchilla, PaLM이 MMLU에서 GPT-3보다 더 좋은 성능을 보였다고 추측하고 있음.
여러 질문 응답 및 상식 벤치마크의 성능 추적 결과
- 대부분의 벤치마크에서 성능은 꾸준히 개선되었으며, 모델의 성능과 훈련 복잡도(perplexity)와 상관관계를 보임
- SIQA와 WinoGrande는 예외
- SIQA: 성능이 크게 변동하는 것을 관찰했는데, 이는 이 벤치마크가 신뢰할 만하지 않음을 의미.
- WinoGrande: 성능이 훈련 복잡도와 잘 상관관계를 보이지 않았으며, LLaMA-33B와 LLaMA-65B가 훈련 중 유사한 성능을 보임
4. Instruction Finetuning
- 명령어 데이터로 간단히 미세 조정을 하는 것만으로도 MMLU에서 성능이 급격히 향상됨을 확인
-
MMLU: 대규모 다중 작업 언어 이해 벤치마크
💡 **Instruction Finetuning (명령어 미세 조정)**이란?
-
모델이 주어진 지시나 명령을 더 정확하게 이해하고 수행할 수 있도록 훈련하는 과정
-
특히 MMLU와 같은 복잡한 다중 작업 벤치마크에서 모델의 성능을 향상시키는 데 유용
-
LLaMA-65B의 미세 조정되지 않은 버전도 이미 기본적인 명령을 따를 수 있지만, 아주 적은 양의 미세 조정만으로도 MMLU에서의 성능이 향상되고, 모델의 명령어 이해 능력이 더욱 개선되는 것을 확인
-
다만, 이 논문의 초점이 명령어 미세 조정에 있는 것은 아니므로, Chung et al.(2022)의 프로토콜을 따라 LLaMA-I라는 명령어 모델을 훈련하는 단일 실험만 수행함
![[표 10] Instruction Finetuning을 수행한 LLaMA-I 모델의 MMLU 성능](https://prod-files-secure.s3.us-west-2.amazonaws.com/f71b219d-0f91-4412-a236-3d8f7ca2589a/ef3b684f-b62c-4b8e-bd62-fa02ca130741/image.png)
[표 10] Instruction Finetuning을 수행한 LLaMA-I 모델의 MMLU 성능
- 기존 LLaMa-65B보다 성능이 오른 것을 확인할 수 있습니다. 다만 표에는 없지만 가장 최신 기술인 GPT code-davinci-002의 77.4보다는 낮습니다.
- 대규모 언어 모델은 훈련 데이터에 있는 편향을 그대로 재생산하거나, 유해한 콘텐츠를 생성할 수 있습니다.
- LLaMA-65B 모델도 웹에서 수집된 데이터를 훈련에 사용했기 때문에, 이런 문제를 일으킬 가능성이 있습니다.
- 우리는 모델이 유해한 콘텐츠나 고정관념을 생성할 가능성을 평가하기 위해 다양한 벤치마크를 사용했습니다.
- 이 평가들은 일부 표준 벤치마크를 사용하여 모델의 문제를 나타내지만, 모델과 관련된 모든 위험을 완전히 이해하기에는 불충분할 수 있습니다.
5.1 Real Toxicity Prompts
- 언어 모델은 모욕, 혐오 발언 또는 위협과 같은 유해한 언어를 생성할 가능성 있음
- 그러나 모델이 생성할 수 있는 유해한 콘텐츠의 범위는 매우 넓어, 이를 철저히 평가하는 것은 어움
- 이에 따라 최근 몇몇 연구에서 RealToxicityPrompts 벤치마크를 모델의 유해성을 평가하는 지표로 사용
- RealToxicityPrompts: 약 10만 개의 프롬프트로 구성
- 이 프롬프트를 완성하는 것이 모델의 과제, 그런 다음 생성된 텍스트의 유해성 점수는 PerspectiveAPI 3를 사용해 0(비유해)에서 1(유해) 사이로 자동 측정
- 해당 논문에서는 평균 유해성 점수를 측정
- 결과는 문헌과 비슷하지만 일부 방법론적 차이 존재
- 모델 크기가 커질수록, 특히 존중적인 프롬프트에서 유해성이 증가하는 경향이 관찰되었습니다.
- Hoffmann et al.(2022)은 Gopher와 Chinchilla 사이에서 유해성 차이를 발견하지 못했는데, 이는 모델 성능의 차이 때문일 수 있습니다.
5.2 CrowS-Pairs
- 모델의 편향을 평가하기 위해 CrowS-Pairs 데이터셋 사용
- CrowS-Pairs: 다양한 카테고리(성별, 종교, 인종/색, 성적 지향, 나이, 국적, 장애, 외모, 사회경제적 지위 등)에서 모델의 편향을 측정하는 데이터셋입니다.
- 각 예제는 고정관념적인 문장과 반고정관념적인 문장으로 구성되어 있으며, 모델이 어느 쪽을 더 선호하는지를 측정
- LLaMA 모델은 평균적으로 GPT-3 및 OPT-175B 모델보다 약간 더 나은 성과
- 하지만, 종교 카테고리에서 LLaMA 모델의 편향이 특히 더 컸으며, 그 다음으로 나이와 성별 카테고리에서 편향이 나타남
- 이러한 편향은 CommonCrawl 데이터에서 기인했을 가능성이 있다고 예상
5.3 WinoGender
- 성별 카테고리에 대한 편향을 더 깊이 조사하기 위해 WinoGender 벤치마크 사용
- WinoGender: Winograd 스키마로 구성되어 있으며, 모델의 공동 참조 해석 성능이 대명사의 성별에 의해 영향을 받는지 평가
- 구체적으로, 각 문장은 세 가지 요소를 포함합니다: "직업", "참가자", 그리고 대명사입니다. 대명사는 직업이나 참가자 중 하나를 참조합니다.
- 따라서, 모델은 직업과 참가자를 참조하는 대명사를 올바르게 연결해야 함.
- 이 테스트의 목표는 직업과 관련된 사회적 편향이 모델에 의해 얼마나 포착되었는지 밝히는 것!
- 예를 들어, WinoGender 데이터셋의 문장 중 하나는 "The nurse notified the patient that his shift would be ending in an hour."입니다. 이 문장에서는 "His"가 누구를 가리키는지(간호사인지 환자인지)를 모델이 결정해야 합니다. 우리는 모델이 "nurse"와 "patient" 중 어느 것을 선택하는지, 그리고 그 선택에 따른 perplexity를 비교하여 공동 참조 해석을 평가합니다.
- LLaMA-65B 모델은 "their/them/someone" 대명사에서는 성능이 좋았지만, "her/her/she"와 "his/him/he" 대명사에서는 성능이 떨어짐.
- 이는 모델이 직업에 대한 사회적 편향을 반영하여 성별에 따라 잘못된 결정을 내리는 경우가 있음을 보여줌.
- "Gotcha" 사례에서는 대명사가 직업의 대다수 성별과 일치하지 않는데, 이때 모델이 더 많은 오류를 범합니다.
- 이 결과는 모델이 성별과 직업에 대한 편향을 가지고 있음을 명확히 나타냄.
5.4 TruthfulQA
- 모델의 진실성을 측정하기 위해 TruthfulQA 사용
- 모델의 주장이 참인지 여부를 식별할 수 있는 능력을 평가하는 것
- 잘못된 정보나 허위 주장을 생성할 위험성을 평가할 수 있음
- 질문들은 다양한 스타일로 작성되었으며, 38개의 카테고리를 다루고 있고, 모델을 공격적으로 평가하기 위해 설계됨
- GPT-3와 비교했을 때, 우리의 모델은 두 카테고리에서 더 나은 성능
- 그러나, 여전히 정답률은 낮음 → 모델이 잘못된 답변을 생성(hallucination)할 가능성이 높음을 보여줌