전문가의 번역이 아닙니다.
Meta에서 작년에 발표한 LLaMA 1을 챗지피티 도움을 받아서 번역했다.
LLaMA: Open and Efficient Foundation Language Models
저자: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample (Meta AI)
초록:
우리는 LLaMA를 소개합니다. LLaMA는 7B에서 65B 매개변수로 구성된 기초 언어 모델 모음입니다. 우리는 모델을 수조 개의 tokens (언어 모델의 입력 단위로, 단어 또는 기호 등으로 구성됨)으로 훈련시키며, 공개적으로 이용 가능한 데이터셋만으로 최첨단 모델을 훈련시킬 수 있음을 보여줍니다. 특히, LLaMA-13B는 대부분의 benchmarks (모델 성능을 평가하기 위해 설정한 기준 또는 테스트)에서 GPT-3(175B)보다 우수한 성능을 보이며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁할 수 있는 성능을 가지고 있습니다. 우리는 모든 모델을 연구 커뮤니티에 공개합니다.
1. 서론
대규모 언어 모델(LLM)은 방대한 text corpora (다양한 주제의 텍스트 데이터를 모은 집합)에서 훈련되어, textual instructions (텍스트로 주어진 지시 사항) 또는 몇 가지 예제에서 새로운 작업을 수행하는 능력을 보여주었습니다(Brown et al., 2020). 이러한 few-shot properties (적은 수의 예제로 학습하는 능력)은 모델을 충분한 크기로 확장할 때 처음 나타났습니다(Kaplan et al., 2020). 이는 이러한 모델을 더 크게 만드는 데 중점을 둔 연구의 continuum of research (연구의 연속선, 특정 분야에서의 지속적인 연구 흐름)로 이어집니다(Chowdhery et al., 2022; Rae et al., 2021).
이러한 노력은 더 많은 매개변수가 더 나은 성능으로 이어질 것이라는 가정에 기반하고 있습니다. 그러나 Hoffmann et al. (2022)의 최근 연구는 주어진 컴퓨팅 예산에서 가장 좋은 성능이 가장 큰 모델이 아니라, 더 많은 데이터로 훈련된 작은 모델에서 달성된다는 것을 보여줍니다.
Hoffmann et al. (2022)의 scaling laws (모델과 데이터셋의 크기를 조절하여 성능을 최적화하는 규칙)의 목표는 특정 훈련 컴퓨팅 예산에 대해 데이터셋과 모델 크기를 어떻게 최적으로 확장할 수 있는지를 결정하는 것입니다. 그러나 이 목표는 언어 모델을 대규모로 제공할 때 중요한 inference budget (모델이 작동할 때 필요한 계산 자원의 양)을 무시합니다. 이 맥락에서, 특정 성능 수준을 목표로 할 때 선호되는 모델은 가장 빠르게 훈련되는 모델이 아니라 가장 빠른 추론 속도를 가진 모델입니다.
예를 들어, Hoffmann et al. (2022)는 200B tokens에서 10B 모델을 훈련하는 것을 권장하지만, 우리는 7B 모델의 성능이 1T tokens 이후에도 계속 개선된다는 것을 발견했습니다.
이 연구의 초점은 다양한 추론 예산에서 가능한 최상의 성능을 달성하는 언어 모델 시리즈를 훈련시키는 것입니다. 우리는 일반적으로 사용되는 것보다 더 많은 tokens으로 훈련시킴으로써 이를 달성했습니다. 결과적으로 생성된 모델인 LLaMA는 7B에서 65B 매개변수를 가지며, 기존의 최고의 LLM과 비교하여 경쟁력 있는 성능을 자랑합니다. 예를 들어, LLaMA-13B는 대부분의 benchmarks에서 GPT-3보다 우수하며, 크기는 10배 작습니다. 우리는 이 모델이 LLM에 대한 접근과 연구를 민주화할 것이라고 믿습니다. 왜냐하면 단일 GPU에서 실행할 수 있기 때문입니다.
상위 범위에서는 우리의 65B 매개변수 모델이 Chinchilla 또는 PaLM-540B와 같은 최고의 대규모 언어 모델과 경쟁력이 있습니다. Chinchilla, PaLM, 또는 GPT-3와 달리 우리는 공개적으로 이용 가능한 데이터만을 사용하여 우리의 작업이 open-sourcing (소스 코드를 공개하여 다른 개발자들이 사용할 수 있도록 하는 것)과 호환되도록 했습니다. 대부분의 기존 모델은 공개적으로 이용할 수 없거나 문서화되지 않은 데이터에 의존하고 있습니다(예: “Books – 2TB” 또는 “Social media conversations”). 몇 가지 예외가 존재하지만, 특히 OPT (Zhang et al., 2022), GPT-NeoX (Black et al., 2022), BLOOM (Scao et al., 2022), GLM (Zeng et al., 2022) 등이 있지만, PaLM-620B나 Chinchilla와 경쟁할 수 있는 모델은 없습니다.
이 논문의 나머지 부분에서는 transformer architecture 와 관련하여 우리가 만든 수정 사항과 훈련 방법을 개괄합니다. 그런 다음 우리의 모델 성능을 보고하고 여러 표준 benchmarks에서 다른 LLM과 비교합니다. 마지막으로, 책임 있는 AI 커뮤니티의 최신 benchmarks를 사용하여 우리 모델에 인코딩된 일부 biases (편향: 특정 집단이나 의견에 치우친 경향) 및 toxicity issues (독성 문제: 공격적이거나 유해한 내용을 포함하는 문제)를 노출합니다.
2. 접근법
우리의 훈련 접근법은 이전 연구에서 설명된 방법(Brown et al., 2020; Chowdhery et al., 2022)과 유사하며, Chinchilla scaling laws (모델과 데이터셋의 크기를 조절하여 성능을 최적화하는 규칙)에 영감을 받았습니다(Hoffmann et al., 2022). 우리는 표준 옵티마이저를 사용하여 대량의 텍스트 데이터에서 대규모 transformers를 훈련합니다.
2.1 Pre-training Data
우리의 훈련 데이터셋은 다양한 분야를 포함하는 여러 출처의 혼합으로 구성되어 있으며, Table 1에 보고되어 있습니다. 우리는 대부분 다른 LLM을 훈련하는 데 사용된 데이터 소스를 재사용하며, 공개적으로 이용 가능한 데이터만 사용하고 오픈 소싱과 호환되는 데이터로 제한합니다. 이는 다음과 같은 데이터 혼합과 각 데이터가 훈련 세트에서 차지하는 비율로 이어집니다:
2.2 아키텍처
최근의 대규모 언어 모델 연구를 따라, 우리의 네트워크는 transformer architecture에 기반합니다(Vaswani et al., 2017). 우리는 이후 제안된 다양한 개선 사항을 활용하며, PaLM과 같은 다양한 모델에서 사용된 방법들을 포함합니다. 여기서는 원래 아키텍처와의 주요 차이점과 이러한 변화에 대한 영감을 설명합니다(괄호 안에 설명):
2.3 옵티마이저
우리 모델은 AdamW 옵티마이저(Loshchilov and Hutter, 2017)를 사용하여 훈련되며, 다음과 같은 하이퍼파라미터를 설정합니다: β1 = 0.9, β2 = 0.95. 우리는 최종 학습률이 최대 학습률의 10%와 같도록 코사인 학습률 스케줄을 사용합니다. 우리는 0.1의 가중치 감쇠(weight decay)와 1.0의 그래디언트 클리핑(gradient clipping)을 사용합니다. 2,000개의 워밍업(warmup) 스텝을 사용하며, 모델의 크기에 따라 학습률과 배치 크기를 조정합니다(Table 2 참조).
2.4 효율적인 구현
우리는 모델의 훈련 속도를 향상시키기 위해 여러 가지 최적화를 수행합니다. 첫째, 우리는 메모리 사용량과 실행 시간을 줄이기 위해 효율적인 인과적 다중 헤드 주의를 구현합니다. 이 구현은 Rabe와 Staats(2021)에서 영감을 받았으며, Dao et al. (2022)의 역방향(backward) 방법을 사용합니다. 이는 주의 가중치를 저장하지 않고 언어 모델링 작업의 인과적 특성으로 인해 마스킹된 키/쿼리 점수를 계산하지 않음으로써 달성됩니다.
훈련 효율성을 더욱 향상시키기 위해, 우리는 역전파(backward pass) 중에 재계산(recomputed)되는 활성화의 양을 줄였습니다. 더 정확히 말하면, 선형 층의 출력과 같은 계산 비용이 높은 활성화를 저장합니다. 이는 PyTorch의 autograd에 의존하기보다는 transformer 층에 대한 역방향 함수를 수동으로 구현하여 달성됩니다. 이러한 최적화의 이점을 충분히 얻으려면, model and sequence parallelism (모델과 시퀀스를 동시에 처리하여 효율성을 높이는 기술)을 사용해야 합니다.
3. 주요 결과
이전 연구(Brown et al., 2020)를 따라, 우리는 zero-shot 및 few-shot 작업을 고려하고 총 20개의 벤치마크에서 결과를 보고합니다:
우리는 LLaMA를 다른 기초 모델들과 비교합니다. 여기에는 비공식적으로 공개되지 않은 언어 모델인 GPT-3 (Brown et al., 2020), Gopher (Rae et al., 2021), Chinchilla (Hoffmann et al., 2022) 및 PaLM (Chowdhery et al., 2022)과 오픈 소스인 OPT 모델(Zhang et al., 2022), GPT-J (Wang and Komatsuzaki, 2021), GPT-Neo (Black et al., 2022)가 포함됩니다. 4절에서는 OPT-IML (Iyer et al., 2022) 및 Flan-PaLM (Chung et al., 2022)과 같은 지시 조정된 모델과 LLaMA를 간략히 비교합니다.
우리는 LLaMA를 자유형 생성(free-form generation) 작업과 다중 선택(multiple choice) 작업에서 평가합니다. 다중 선택 작업에서는 주어진 맥락에 따라 주어진 옵션 중에서 가장 적절한 완성을 선택하는 것이 목표입니다. 주어진 맥락에 따라 가장 높은 확률을 가진 완성을 선택합니다. 우리는 Gao et al. (2021)을 따르며, 특정 데이터셋(OpenBookQA, BoolQ)을 제외하고는 완성의 문자 수에 따라 정규화된 확률을 사용합니다. 이들 데이터셋에서는 “Answer:”를 맥락으로 제공하여, P(completion|context)/P(completion|“Answer:”)를 기반으로 완성을 선택합니다.
우리는 여덟 개의 표준 상식 추론 벤치마크를 고려합니다: BoolQ (Clark et al., 2019), PIQA (Bisk et al., 2020), SIQA (Sap et al., 2019), HellaSwag (Zellers et al., 2019), WinoGrande (Sakaguchi et al., 2021), ARC 쉬운(easy) 및 도전(challenge) (Clark et al., 2018), OpenBookQA (Mihaylov et al., 2018). 이 데이터셋은 Cloze 및 Winograd 스타일의 작업과 다중 선택 질문 응답을 포함합니다. 우리는 언어 모델링 커뮤니티에서처럼 제로샷 설정으로 평가합니다.
Table 3에서 우리는 다양한 크기의 기존 모델들과 비교하고, 해당 논문에서 보고된 수치를 제시합니다. 첫째, LLaMA-65B는 BoolQ를 제외한 모든 보고된 벤치마크에서 Chinchilla-70B를 능가합니다. 유사하게, 이 모델은 BoolQ와 WinoGrande를 제외한 모든 곳에서 PaLM-540B를 초과합니다. LLaMA-13B 모델은 크기가 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3를 초과합니다.
우리는 두 개의 클로즈드북 질문 응답 벤치마크에서 LLaMA를 기존의 대규모 언어 모델들과 비교합니다: Natural Questions (Kwiatkowski et al., 2019)와 TriviaQA (Joshi et al., 2017). 두 벤치마크 모두 문서에 접근할 수 없는 클로즈드북 환경에서 정확한 일치 성능을 보고합니다. Table 4에서는 Natural Questions의 성능을, Table 5에서는 TriviaQA의 성능을 보고합니다. 두 벤치마크 모두에서 LLaMA-65B는 제로샷 및 몇 샷 설정에서 최첨단 성능을 달성합니다. 더욱이, LLaMA-13B는 크기가 5-10배 더 작음에도 불구하고 GPT-3와 Chinchilla와 경쟁력을 보입니다. 이 모델은 추론 시 단일 V100 GPU에서 실행됩니다.
우리는 RACE 독해 벤치마크(Lai et al., 2017)에서 모델을 평가합니다. 이 데이터셋은 중고등학교 중국 학생을 위해 설계된 영어 독해 시험에서 수집되었습니다. 우리는 Brown et al. (2020)의 평가 설정을 따르며, Table 6에서 결과를 보고합니다. 이 벤치마크에서 LLaMA-65B는 PaLM-540B와 경쟁력을 보이며, LLaMA-13B는 GPT-3를 몇 퍼센트 초과합니다.
우리는 두 개의 수학적 추론 벤치마크에서 모델을 평가합니다: MATH (Hendrycks et al., 2021)와 GSM8k (Cobbe et al., 2021). MATH는 LaTeX로 작성된 12,000개의 중고등학교 수학 문제로 구성된 데이터셋입니다. GSM8k는 중학교 수학 문제 모음입니다. Table 7에서는 PaLM 및 Minerva (Lewkowycz et al., 2022)와 비교합니다. Minerva는 ArXiv와 Math Web Pages에서 추출된 38.5B 토큰에 대해 미세 조정된 PaLM 모델의 시리즈입니다. PaLM과 LLaMA는 모두 수학 데이터에 대해 미세 조정되지 않았습니다. PaLM과 Minerva의 수치는 Lewkowycz et al. (2022)에서 가져온 것이며, maj1@k의 유무에 따라 비교합니다. maj1@k는 각 문제에 대해 k 샘플을 생성하고 다수결을 수행하는 평가를 나타냅니다(Wang et al., 2022). GSM8k에서 LLaMA-65B는 Minerva-62B를 초과하는 성능을 보여줍니다.
우리는 자연어 설명으로부터 코드를 작성하는 모델의 능력을 두 개의 벤치마크에서 평가합니다: HumanEval (Chen et al., 2021)와 MBPP (Austin et al., 2021). 두 작업 모두 모델은 프로그램의 설명과 몇 개의 입력-출력 예제를 받습니다. HumanEval에서는 함수 서명도 받으며, 프롬프트는 텍스트 설명과 테스트가 포함된 자연 코드 형식으로 작성됩니다. 모델은 설명에 맞고 테스트 케이스를 만족하는 Python 프로그램을 생성해야 합니다. Table 8에서는 코드에 대해 미세 조정되지 않은 기존 언어 모델인 PaLM 및 LaMDA (Thoppilan et al., 2022)와 우리의 모델의 pass@1 점수를 비교합니다. PaLM과 LLaMA는 유사한 수의 코드 토큰을 포함하는 데이터셋에서 훈련되었습니다.
Table 8에서 보여지듯, 유사한 수의 매개변수를 가진 LLaMA는 LaMDA 및 PaLM과 같은 다른 일반 모델을 능가합니다. LLaMA 13B는 HumanEval과 MBPP 모두에서 LaMDA 137B를 초과하며, LLaMA 65B는 훈련 기간이 길더라도 PaLM 62B를 초과합니다. 이 표에서 보고된 pass@1 결과는 온도 0.1로 샘플링하여 얻은 것입니다. pass@100 및 pass@80 지표는 온도 0.8로 얻었습니다. 우리는 Chen et al. (2021)과 동일한 방법을 사용하여 pass@k의 편향 없는 추정을 얻습니다.
코드에 대한 성능은 코드 전용 토큰에 대한 미세 조정을 통해 향상될 수 있습니다. 예를 들어, PaLM-Coder (Chowdhery et al., 2022)는 HumanEval에서 PaLM의 pass@1 점수를 26.2%에서 36%로 증가시킵니다. 코드에 대해 특별히 훈련된 다른 모델들도 이러한 작업에서 일반 모델보다 성능이 더 좋습니다(Chen et al., 2021; Nijkamp et al., 2022; Fried et al., 2022). 코드 토큰에 대한 미세 조정은 이 논문의 범위를 넘어섭니다.
대규모 다중 작업 언어 이해 벤치마크, 즉 MMLU는 Hendrycks et al. (2020)에 의해 소개되었으며, 인문학, STEM 및 사회 과학을 포함한 다양한 지식 분야의 다중 선택 질문으로 구성되어 있습니다. 우리는 벤치마크에서 제공된 예제를 사용하여 5샷 설정에서 모델을 평가하며, Table 9에서 결과를 보고합니다. 이 벤치마크에서 LLaMA-65B는 평균적으로 Chinchilla-70B 및 PaLM-540B보다 몇 퍼센트 뒤처지는 것을 관찰합니다. 이는 우리가 사용한 서적 및 학술 논문의 양이 제한적이기 때문일 수 있습니다. 즉, ArXiv, Gutenberg 및 Books3에서 합쳐서 177GB에 불과한 반면, 이러한 모델은 최대 2TB의 서적에서 훈련되었습니다. Gopher, Chinchilla 및 PaLM이 사용한 방대한 양의 서적이 Gopher가 이 벤치마크에서 GPT-3를 초과하는 이유일 수도 있습니다.
훈련 중 우리는 몇 가지 질문 응답 및 상식 벤치마크에서 모델의 성능을 추적하고 Figure 2에 보고합니다. 대부분의 벤치마크에서 성능이 꾸준히 향상되며, 모델의 훈련 perplexity와 상관관계를 보입니다(Figure 1 참조). 예외로는 SIQA와 WinoGrande가 있습니다. 특히, SIQA에서는 성능의 변동이 커서 이 벤치마크가 신뢰할 수 없음을 나타낼 수 있습니다. WinoGrande에서는 성능이 훈련 perplexity와 잘 상관되지 않으며, LLaMA-33B와 LLaMA-65B는 훈련 중 비슷한 성능을 보입니다.
4. Instruction Finetuning
이 섹션에서는 지시 데이터에 대해 간단히 미세 조정(finetuning)함으로써 MMLU에서 신속하게 개선이 이루어짐을 보여줍니다. 비미세 조정된 LLaMA-65B 버전은 기본적인 지시를 따를 수 있지만, 소량의 미세 조정을 통해 MMLU에서 성능이 향상되고 모델의 지시를 따르는 능력이 더욱 개선되는 것을 관찰했습니다. 이는 이 논문의 초점이 아니므로, Chung et al. (2022)의 동일한 프로토콜을 따라 instruction model인 LLaMA-I를 훈련하는 단일 실험만 수행했습니다.
Table 10에서는 MMLU에서 우리의 instruction model LLaMA-I의 결과를 보고하고, 중간 크기의 기존 지시 미세 조정 모델인 OPT-IML (Iyer et al., 2022) 및 Flan-PaLM 시리즈 (Chung et al., 2022)와 비교합니다. 보고된 모든 수치는 해당 논문에서 가져온 것입니다. 여기에서 사용된 지시 미세 조정 접근법의 간단함에도 불구하고, MMLU에서 68.9%의 성과를 달성했습니다. LLaMA-I (65B)는 MMLU에서 기존의 중간 크기 지시 미세 조정 모델을 초과하지만, 여전히 최첨단 성능인 77.4% (GPT code-davinci-002의 MMLU에서, Iyer et al. (2022)에서 가져온 수치)에는 미치지 못합니다. MMLU의 57개 작업에 대한 성능 세부사항은 부록의 Table 16에서 확인할 수 있습니다.
5. Bias, Toxicity and Misinformation
대규모 언어 모델은 훈련 데이터에 존재하는 편향(bias)을 재현하고 증폭시키는 것으로 나타났습니다(Sheng et al., 2019; Kurita et al., 2019). 또한, 이러한 모델은 독성(toxic) 또는 공격적인 콘텐츠를 생성할 수 있습니다(Gehman et al., 2020). 우리의 훈련 데이터셋에는 웹에서 수집된 데이터가 큰 비율을 차지하므로, 모델이 이러한 콘텐츠를 생성할 잠재력을 평가하는 것이 중요하다고 생각합니다.
LLaMA-65B의 잠재적인 해악을 이해하기 위해, 우리는 독성 콘텐츠 생성 및 고정관념(stereotypes) 탐지를 측정하는 다양한 벤치마크에서 평가합니다. 언어 모델 커뮤니티에서 이러한 모델의 문제를 나타내기 위해 사용되는 일부 표준 벤치마크를 선택했지만, 이러한 평가만으로는 이러한 모델과 관련된 위험을 완전히 이해하기에는 불충분합니다.
언어 모델은 독성 언어를 생성할 수 있습니다. 예를 들어, 모욕(insults), 증오 발언(hate speech) 또는 위협(threats)과 같은 것입니다. 모델이 생성할 수 있는 독성 콘텐츠의 범위가 매우 넓기 때문에 철저한 평가가 어려워집니다. 최근 여러 연구(Zhang et al., 2022; Hoffmann et al., 2022)는 RealToxicityPrompts 벤치마크(Gehman et al., 2020)를 모델의 독성 수준을 나타내는 지표로 고려했습니다. RealToxicityPrompts는 모델이 완성해야 하는 약 100k 프롬프트로 구성되어 있으며, 이후 PerspectiveAPI에 요청을 하여 독성 점수가 자동으로 평가됩니다.
우리는 제3자인 PerspectiveAPI에서 사용하는 파이프라인에 대한 통제권이 없기 때문에 이전 모델과의 비교가 어렵습니다. 100k 프롬프트 각각에 대해 우리의 모델로 독성을 생성하고 독성 점수를 측정합니다. 각 프롬프트의 점수는 0(비독성)에서 1(독성)까지 범위가 있습니다. Table 11에서는 RealToxicityPrompts의 기본 및 존중하는 프롬프트 범주에서 평균 점수를 보고합니다. 이 점수는 문헌에서 관찰되는 수치와 “비교 가능”하지만(예: Chinchilla의 경우 0.087), 이러한 작업과 우리의 방법론은 샘플링 전략, 프롬프트 수 및 API 사용 시간 면에서 다릅니다. 우리는 독성이 모델의 크기가 커짐에 따라 증가하는 것을 관찰했으며, 특히 존중하는 프롬프트에 대해 그렇습니다. 이는 Zhang et al. (2022)의 이전 연구에서도 관찰되었지만, Hoffmann et al. (2022)에서는 Chinchilla와 Gopher 사이에 차이를 보지 못했습니다. 이는 더 큰 모델인 Gopher가 Chinchilla보다 성능이 떨어지므로 독성과 모델 크기 간의 관계가 모델 계열 내에서만 적용될 수 있음을 시사합니다.
우리는 CrowS-Pairs(Nangia et al., 2020)에서 모델의 편향을 평가합니다. 이 데이터셋은 9가지 범주에서의 편향을 측정할 수 있게 해줍니다: 성별(gender), 종교(religion), 인종/색상(race/color), 성적 지향(sexual orientation), 나이(age), 국적(nationality), 장애(disability), 외모(physical appearance) 및 사회경제적 지위(socioeconomic status). 각 예제는 고정관념(stereotype)과 반고정관념(anti-stereotype)으로 구성되어 있으며, 우리는 제로샷(zero-shot) 설정에서 두 문장의 perplexity를 사용하여 고정관념 문장에 대한 모델의 선호도를 측정합니다. 더 높은 점수는 더 높은 편향을 나타냅니다. 우리는 Table 12에서 GPT-3 및 OPT-175B와 비교합니다. LLaMA는 평균적으로 두 모델보다 약간 유리한 결과를 보입니다. 우리의 모델은 종교 범주에서 특히 편향되어 있으며(+10% OPT-175B에 비해), 나이와 성별이 뒤따릅니다. 우리는 이러한 편향이 CommonCrawl에서 기인했을 것으로 예상합니다.
모델의 성별 범주에 대한 편향을 추가로 조사하기 위해, 우리는 WinoGender 벤치마크(Rudinger et al., 2018)를 살펴봅니다. WinoGender는 공참조 해결(co-reference resolution) 데이터셋입니다. WinoGender는 Winograd 스키마로 구성되어 있으며, 편향은 모델의 공참조 해결 성능이 대명사의 성별에 영향을 받는지를 판단하여 평가됩니다.
보다 구체적으로, 각 문장은 "직업(occupation)", "참여자(participant)", "대명사(pronoun)"의 세 가지 언급을 가지고 있으며, 대명사는 직업이나 참여자를 공참조합니다. 우리는 모델에게 공참조 관계를 판단하도록 요청하고, 문맥에 따라 정확히 수행하는지를 측정합니다. 목표는 직업과 관련된 사회적 편향이 모델에 의해 포착되었는지를 드러내는 것입니다. 예를 들어, WinoGender 데이터셋의 문장은 "간호사가 환자에게 그의 교대 근무가 한 시간 후 끝날 것이라고 알렸습니다."이며, 이 문장은 'His'가 무엇을 참조하는지를 따릅니다. 우리는 모델을 사용하여 간호사와 환자를 공참조 해결로 수행할 때의 연속성 perplexity를 비교합니다. 우리는 세 가지 대명사에 대한 성능을 평가합니다: “her/her/she”, “his/him/he” 및 “their/them/someone” (각 선택지는 대명사의 문법적 기능에 해당합니다).
Table 13에서는 데이터셋에 포함된 세 가지 대명사에 대한 공참조 점수를 보고합니다. 우리는 모델이 “their/them/someone” 대명사에 대해 공참조 해결을 수행하는 데 있어 “her/her/she” 및 “his/him/he” 대명사보다 훨씬 더 잘 수행하는 것을 관찰합니다. 이전 연구(Rae et al., 2021; Hoffmann et al., 2022)에서도 유사한 관찰이 있었으며, 이는 성별 편향을 나타내는 것일 수 있습니다. 실제로, “her/her/she” 및 “his/him/he” 대명사의 경우, 모델이 공참조 해결을 수행하기 위해 직업의 대부분 성별을 사용하고 있는 것으로 보이며, 문장의 증거를 사용하지 않고 있습니다.
이 가설을 추가로 조사하기 위해, 우리는 WinoGender 데이터셋에서 “her/her/she” 및 “his/him/he” 대명사에 대한 “gotcha” 사례를 살펴봅니다. 이러한 사례는 대명사가 직업의 대부분 성별과 일치하지 않으며, 직업이 올바른 답인 문장에 해당합니다. Table 13에서 우리는 모델인 LLaMA-65B가 gotcha 예제에서 더 많은 오류를 발생시키는 것을 관찰하여, 성별 및 직업과 관련된 사회적 편향을 포착하고 있음을 명확히 보여줍니다. 성능 하락은 “her/her/she” 및 “his/him/he” 대명사에서 존재하며, 이는 성별과 관계없이 편향을 나타냅니다.
TruthfulQA (Lin et al., 2021)는 모델의 진실성, 즉 주장이 참일 때 이를 식별하는 능력을 측정하는 것을 목표로 합니다. Lin et al. (2021)은 "진실"의 정의를 "현실 세계에 대한 문자적 진실"로 간주하며, 신념 체계나 전통의 맥락에서만 참인 주장은 포함하지 않습니다. 이 벤치마크는 모델이 허위 정보나 잘못된 주장을 생성할 위험을 평가할 수 있습니다. 질문은 다양한 스타일로 작성되어 있으며, 38개 범주를 다루며, 적대적인 방식으로 설계되었습니다.
Table 14에서는 우리의 모델이 진실한 모델과 진실하며 유익한 질문의 교차점에서 성능을 보고합니다. GPT-3와 비교했을 때, 우리 모델은 두 범주에서 모두 더 높은 점수를 기록하지만, 여전히 정답률이 낮아 우리 모델이 잘못된 답변을 환각할 가능성이 있음을 보여줍니다.
6. 탄소 발자국 (Carbon Footprint)
우리 모델의 훈련에는 엄청난 양의 에너지가 소비되었으며, 이는 이산화탄소 배출의 원인이 됩니다. 우리는 이 주제에 대한 최근 문헌을 따라, 총 에너지 소비량과 그에 따른 탄소 발자국을 Table 15에 나누어 보고합니다. 우리는 Wu et al. (2022)의 공식을 따라 모델을 훈련하는 데 필요한 와트시(Wh)와 이산화탄소 배출량(tCO2eq)을 추정합니다. Wh를 계산하기 위한 공식은 다음과 같습니다:
Wh = GPU-h × (GPU 전력 소비) × PUE,
여기서 PUE(Power Usage Effectiveness, 전력 사용 효율성)는 1.1로 설정됩니다. 결과적인 탄소 배출량은 네트워크를 훈련하는 데 사용된 데이터 센터의 위치에 따라 달라집니다. 예를 들어, BLOOM은 0.057 kg CO2eq/KWh를 배출하는 그리드를 사용하여 27 tCO2eq를 배출하며, OPT는 0.231 kg CO2eq/KWh를 배출하는 그리드를 사용하여 82 tCO2eq를 배출합니다. 이 연구에서는 동일한 데이터 센터에서 훈련되었을 경우 모델 훈련의 탄소 배출량을 비교하는 데 관심이 있습니다. 따라서 데이터 센터의 위치는 고려하지 않고, 대신 미국 국가 평균 탄소 집약도인 0.385 kg CO2eq/KWh를 사용합니다. 이로 인해 탄소 배출량(tCO2eq)을 계산하기 위한 공식은 다음과 같습니다:
tCO2eq = MWh × 0.385.
공정한 비교를 위해 OPT와 BLOOM에도 동일한 공식을 적용합니다. OPT의 경우, 훈련에 34일이 걸렸고 992개의 A100-80B GPU가 사용되었다고 가정합니다(로그 참조). 마지막으로, 우리는 모델 개발에 약 5개월 동안 2048개의 A100-80GB GPU를 사용했다고 추정합니다. 이 가정에 따르면, 이러한 모델을 개발하는 데 약 2,638 MWh가 소모되었으며, 총 1,015 tCO2eq의 배출량을 기록했을 것입니다.
우리는 이러한 모델을 공개함으로써, 훈련이 이미 완료되었기 때문에 향후 탄소 배출을 줄이는 데 기여할 수 있기를 바랍니다. 또한, 일부 모델은 상대적으로 작아서 단일 GPU에서 실행될 수 있습니다.
7. 관련 연구 (Related Work)
언어 모델은 단어, 토큰 또는 문자 시퀀스에 대한 확률 분포입니다(Shannon, 1948, 1951). 이 작업은 종종 다음 토큰 예측(next token prediction)으로 구성되며, 자연어 처리에서 핵심 문제로 오랫동안 여겨져 왔습니다(Bahl et al., 1983; Brown et al., 1990). 튜링(Turing, 1950)은 "모방 게임(imitation game)"을 통해 언어를 사용하여 기계 지능을 측정할 것을 제안하였고, 언어 모델링은 인공지능의 발전을 측정하기 위한 벤치마크로 제안되었습니다(Mahoney, 1999).
전통적으로, 언어 모델은 n-그램(n-gram) 카운트 통계(Bahl et al., 1983)에 기반하였으며, 희귀 이벤트의 추정을 개선하기 위해 다양한 스무딩(smoothing) 기법이 제안되었습니다(Katz, 1987; Kneser and Ney, 1995). 지난 20년 동안, 신경망(neural networks)은 언어 모델링 작업에 성공적으로 적용되었습니다(Bengio et al., 2000; Elman, 1990; Mikolov et al., 2010; Hochreiter and Schmidhuber, 1997; Graves, 2013). 최근에는 자기 주의(self-attention)를 기반으로 한 transformer networks가 장기 의존성(long range dependencies)을 캡처하는 데 중요한 개선을 가져왔습니다(Vaswani et al., 2017; Radford et al., 2018; Dai et al., 2019).
언어 모델에 대한 스케일링에는 모델과 데이터셋 크기 모두에 대한 오랜 역사가 있습니다. Brants et al. (2007)은 2조 개의 토큰으로 훈련된 언어 모델을 사용하여 3000억 개의 n-그램을 생성했으며, 이는 기계 번역의 품질에 이점을 가져왔다고 보여주었습니다. 이 작업은 간단한 스무딩 기법인 Stupid Backoff에 의존했으나, Heafield et al. (2013)은 Kneser-Ney 스무딩을 웹 규모 데이터에 맞추어 스케일링하는 방법을 보여주었습니다. 이를 통해 CommonCrawl에서 9750억 개의 토큰으로 5-그램 모델을 훈련할 수 있었고, 5000억 개의 n-그램을 가진 모델이 생성되었습니다(Buck et al., 2014). Chelba et al. (2013)은 언어 모델의 진행 상황을 측정하기 위한 대규모 훈련 데이터셋인 One Billion Word 벤치마크를 도입했습니다.
신경 언어 모델(neural language models)의 맥락에서, Jozefo wicz et al. (2016)은 LSTMs를 10억 개의 매개변수로 스케일링하여 Billion Word 벤치마크에서 최첨단 결과를 얻었습니다. 이후 스케일링된 transformers는 많은 NLP 작업에서 개선을 가져왔습니다. 주목할 만한 모델로는 BERT (Devlin et al., 2018), GPT-2 (Radford et al., 2019), Megatron-LM (Shoeybi et al., 2019) 및 T5 (Raffel et al., 2020)가 있습니다. 중요한 돌파구는 1750억 개의 매개변수를 가진 GPT-3 (Brown et al., 2020)에서 얻어졌습니다. 이는 Jurassic-1 (Lieber et al., 2021), Megatron-Turing NLG (Smith et al., 2022), Gopher (Rae et al., 2021), Chinchilla (Hoffmann et al., 2022), PaLM (Chowdhery et al., 2022), OPT (Zhang et al., 2022), GLM (Zeng et al., 2022)와 같은 대규모 언어 모델의 시리즈로 이어졌습니다. Hestness et al. (2017)과 Rosenfeld et al. (2019)은 깊은 학습 모델의 성능에 대한 스케일링의 영향을 연구하였으며, 모델과 데이터셋 크기 간의 파워 법칙(power laws)이 존재함을 보여주었습니다. Kaplan et al. (2020)은 transformer 기반 언어 모델을 위한 파워 법칙을 도출하였으며, 이는 나중에 Hoffmann et al. (2022)에 의해 데이터셋 스케일링 시 학습률 스케줄을 조정하여 개선되었습니다. 마지막으로, Wei et al. (2022)는 대규모 언어 모델의 능력에 대한 스케일링의 영향을 연구했습니다.
8. 결론
이 논문에서는 공개적으로 출시된 언어 모델 시리즈를 제시하였으며, 이는 최첨단 기초 모델과 경쟁력을 갖추고 있습니다. 특히, LLaMA-13B는 크기가 10배 이상 작은데도 GPT-3를 초과하는 성능을 보여주며, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁할 수 있는 성능을 보입니다. 이전 연구와는 달리, 우리는 독점적인 데이터셋에 의존하지 않고 공개적으로 이용 가능한 데이터만으로 최첨단 성능을 달성할 수 있음을 보여줍니다.
우리는 이러한 모델을 연구 커뮤니티에 공개함으로써 대규모 언어 모델의 발전을 가속화하고, 독성(toxicity) 및 편향(bias)과 같은 알려진 문제를 개선하기 위한 노력을 도울 수 있기를 바랍니다. 또한, Chung et al. (2022)와 같이, 이러한 모델을 지시 사항에 맞춰 미세 조정(finetuning)하면 유망한 결과를 얻을 수 있음을 관찰하였으며, 향후 작업에서 이를 더욱 조사할 계획입니다. 마지막으로, 우리는 더 큰 프리트레이닝 코퍼스에서 훈련된 더 큰 모델을 미래에 출시할 계획입니다. 왜냐하면 우리는 모델을 확장할 때 성능이 지속적으로 개선되는 것을 확인했기 때문입니다.
Acknowledgements 와 References는 번역 생략
A. 질문 응답 (Question Answering)
우리는 LLaMA 모델을 Natural Questions와 TriviaQA에서 평가합니다.
우리는 탐욕적 디코딩(greedy decoding) 방식으로 답변을 만듭니다. 답변을 만들 때, 첫 번째 줄 바꿈, 마지막 점(.) 또는 쉼표(,)에서 멈추고 그 지점까지의 내용을 답변으로 사용합니다. 생성된 답변은 정확한 일치(exact match) 기준으로 평가합니다. 정규화(normalization) 단계에서는 다음을 수행합니다:
예시:
Figure 3에서는 Natural Questions와 TriviaQA의 예제를 보여줍니다. 모든 질문과 답변 목록 앞에 “이 질문에 답하세요:\n”이라는 문장을 추가합니다.
예시 문장:
Figure 3: Natural Questions(왼쪽)과 TriviaQA(오른쪽)의 포맷된 예시.
B MMLU (Massive Multitask Language Understanding)는 다양한 주제와 난이도의 다중 선택 질문으로 구성된 언어 이해 벤치마크입니다. 여러 분야(인문학, 과학 등)에서 모델의 성능을 평가하여, 최신 언어 모델의 이해 능력을 비교하는 데 사용됩니다. (평가를 위해 고안된 데이터셋임)
C Generations from LLaMA-65B
프롬프트를 써서 라마로 생성한 예시를 보여주고 있다. 피보나치 수열, 추천서, 파이썬 코드
D Generations from LLaMA-I
sun과 pluto의 대화, 자바스크립트 코드 질문, 체스 질문, Write a theory to explain why cat never existed, 이메일 써봐 등등