- A timeline of existing large language models (having a size larger than 10B) in recent years.
👏 Recap
Early laguage models mainly aim to model and generate text data, while latest language models (e.g., GPT-4) focus on complex task solving.
(from language modeling to task solving)
-
이 Survey 페이퍼의 챕터 2 large language model의 발전흐름 및 배경, 주요기술에 대해 설명합니다.
-
하나 하나에 대한 디테일한 설명보다는, LLMs에 대한 전체적인 맥락을 이해하기 위한 개요를 소개한다는 점에 유의하세요!
🍽️ Chapter 2. OVERVIEW
- 이 챕터에서 다루는 내용
- Background of LLMs
- Technical evoluation of the GPT-series models
2-1. Background for LLMs
- 일반적으로 Large Language Models(LLMs)는 방대한 텍스트 데이터로 수천억개(또는 그 이상의) 파라미터를 가지는 Transformer language model를 의미함.
- LLMs에 대한 빠른 이해를 위해, 이 섹션에서는 LLMs의 주요 등장배경인 Scaling Law와 Emergent Ability에 대해 소개함.
https://github.com/Mooler0410/LLMsPracticalGuide
- LLM 발전과정, 현재는 Decoder-only 구조로 계속 발전되어 오고 있음.
A. Scaling Law
- 기존 언어모델들은 일반적으로 기본적인 Transformer 아키텍처의 구조와 Pre-training objective (e.g., language modeling)을 따랐음.
https://velog.io/@dayday/%EB%B6%80%EC%8A%A4%ED%8A%B8%EC%BA%A0%ED%94%84-Week7
Causal language modeling
- 그러나, LLM은 Transformer 아키텍처에서 model size, data size, total compute (orders of magnitude) 부분이 크게 확장된 것임.
- 이전 연구들은 LLM의 스케일을 확장하는 것이 model capacity를 향상시키는 데 도움을 준다는 것을 발견하였음.
- 그리고, 그것을 정량화하여 LLM의 performance에 영향을 줄 수 있는 다양한 요인들과 그것의 영향에 대한 특정 공식을 도출해내고자 하였음. (Scaling Law/스케일링 법칙)
- 이후부터는 Transformer language model을 위한 스케일링 법칙의 가장 대표적인 두 가지 예시를 소개하고자 함.
✅ KM Scaling Law (2020)
J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, and D. Amodei, “Scaling laws for neural language models,” CoRR, vol. abs/2001.08361, 2020
- 2020년 OpenAI 팀은 거대언어모델의 성능과 세 가지의 주요 요인들 간의 관계를 설명하였음.
- Model Size (N)
- Dataset Size (D)
- Amount of training compute (C)
- 다음 발표자가 이 부분은 좀 더 자세히 설명하겠지만, 주요 인사이트로는 다음과 같은 것들이 있음.
- 더 큰 모델, 더 많은 데이터, 더 많은 컴퓨팅을 사용하면 예측 가능한 방식으로 성능이 항상됨. (Power-law)
- 모델의 크기와 데이터 크기를 동시에 늘리면 성능은 예측 가능하게 증가하지만, 한쪽을 고정하면 어느 시점에서 성능이 향상되지 않음. 즉, 큰 모델은 성능 향상을 위해 더 많은 데이터를 필요로 함.
✅ Chinchilla Scaling Law (2022)
J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, L. A. Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, J. W. Rae, O. Vinyals, and L. Sifre, “Training compute-optimal large language models,” vol. abs/2203.15556, 2022.
- Google DeepMind team이 2022년에 발표한 스케일링 법칙. 이전 연구보다 다양한 스케일의 모델과의 비교를 통해 다른 관점에서의 Scaling Law 제시하였음.
- 같은 Compute budget 데이터 크기보다 모델의 크기를 더 늘리는 것을 권장했던 이전 연구와는 달리 Chinchilla는 모델, 데이터셋 두 크기를 동일한 스케일로 늘려야 한다고 주장.
- 같은 계산 비용이라면 더 작은 모델을 더 많은 데이터로 학습시키면 더 좋은 성능을 얻을 수 있다고 주장함. (이전 연구보다 학습 데이터의 양을 보다 강조)
✅ Discussion on Scaling Laws
I. McKenzie, A. Lyzhov, A. Parrish, A. Prabhu, A. Mueller, N. Kim, S. Bowman, and E. Perez, “The inverse scaling prize,” 2022. [Online]. Available: https://github.com/inverse-scaling/prize
B. Emergent Abilities
- LLM의 Emergent abilities는 종종 "The abilities that are not present in small models but arise in large models"로 정의되며, 이는 LLM과 PLM을 구별하는 가장 두드러지는 특징 중 하나로 고려되고 있음.
-
Emergent abilitires가 발생했을 때의 주목할만한 특징은 다음과 같음.
Performance rises significantly above random when the scale reaches a certian level.
-
특정 작업을 수행할 때, '랜덤(Random)'은 무작위로 답을 선택하는 것을 의미. → 언어 모델이 기본적으로는 "다음에 나올 가장 적절한 단어"를 확률에 기반해 생성하는 것에 초점을 맞추기 때문에 모델이 해당 작업을 이해한 것이기 보다는, 확률적으로 토큰을 출력하는 것에 지나지 않음.
-
모델의 성능이 이보다 '유의미하게(Significantly)' 높아진다는 것은 모델이 실제로 특정 작업의 본질을 '이해'하기 시작했다는 것을 의미함.
-
즉, LLM이 특정 규모에 도달하면 단순한 확률적 예측을 넘어 더 깊은 수준의 언어 및 테스크에 대한 이해를 보여주기 시작하며, 이것이 PLM과 LLM을 구분하는 가장 두드러지는 특징으로 여겨지고 있다는 것.
-
이후부터는 이러한 능력을 가짐으로써 LLM이 얻게 된 세 가지 능력에 대해 소개함.
✅ In-context learning
- GPT-3에 의해 공식적으로 소개되었으며, 언어 모델에게 자연어로 구성된 instruction이나 task demonstrations을 제공했을 때, 추가적인 훈련없이도 test instance에 대한 출력을 생성할 수 있는 능력을 의미함.
- GPT 시리즈에서, GPT-1, GPT-2에는 이 능력이 없었지만 스케일이 커지면서 175B GPT-3 모델이 이 강력한 ICL ability를 가지고 있는 것으로 밝혀졌음.
[Source] https://www.simform.com/blog/the-gpt-model-comprehensive-guide/
- 모든 테스크 수행 능력과 스케일이 선형비례 하지는 않으며, 해당 테스크를 수행하기에 필요한 복잡한 구성요소들이 충족되었을 때 발현 (13B GPT-3이 덧셈, 뺄셈을 할 수 있었지만 175B GPT-3는 페르시아어 QA에 어려움을 겪음)
✅ Instruction following
- 우리가 원하는 것
- 실제 GPT-3가 생성하는 값
- Why? 언어 모델 자체가 지시사항에 맞는 답변을 출력하는 것이 아닌, 주어진 맥락에 확률적으로 가장 높은 값을 가지는 토큰들을 순차적으로 출력하기 때문.
- Instruction Tuning: Instruction과 Output의 Pair 데이터셋을 통해 학습을 수행함으로써 보다 인간의 지시사항을 잘 수행하도록 학습하는 기법
[Source] https://velog.io/@nellcome/Instruction-Tuning%EC%9D%B4%EB%9E%80
이 페이지에 보다 자세한 설명이 있습니다!
- 이러한 tuning을 해주면 LLM은 unseen task도 잘 수행할 수 있게 되는 것으로 알려져 있음, 즉 일반화 능력이 크게 향상되는 것.
✅ Step-by-step reasoning
[Source] https://arxiv.org/abs/2201.11903
- 작은 모델에서 complex tasks를 해결하는 것은 어려움. 이러한 작업들은 보통 multiple reasoning steps를 요구함.
- chain-of-thought (CoT) 프롬프팅 전략을 통해 LLM은 intermediate reasoning steps를 거칠 수 있으며, 이를 통해 적절한 final answer를 추론해 낼 수 있음.
- 이전 연구에서는 60B 모델에서 이러한 CoT가 성능을 향상시키는 것을 발견했으며, 100B 모델에서 두드러지게 나타남. (모델 스케일이 커질수록 보다 단계별 추론능력이 강화됨)
C. How Emergent Abilities Relate to Scaling Laws
- Scaling Law은 LLM의 연속적인 성능 향상을,
Emergent Abilities는 LLM의 급격한 성능 도약을 의미함.
- LLM의 성능 향상(Loss의 감소)이 테스크에 대한 성능 향상을 의미하지는 않음. 테스크에 대한 성능 향상이 어떻게 이루어지는가에 대한 추가적인 연구 필요함을 시사함
- 인간의 언어 발달 및 능력 습득 과정과 유사하다고 보기도 함.
Created by DALL-E
D. Key Techniques for LLMs
- LLM이 general하고 capable한 learner로 될 수 있게 만들어주었던 핵심 기법들에 대해 소개
✅ Scaling
- Larger model/data sizes and more training compute typically lead to an improved model capacity.
- Compute budged이 한정되어 있기 때문에, scaling law를 위한 연구들은 컴퓨팅 리소스를 어떻게 효율적으로 할당할 것인지에 초점을 맞춰 진행됨.
- Chinchilla는 더 많은 학습 데이터를 바탕으로 같은 compute budget에서 더 큰 모델 사이즈를 갖춘 모델을 능가하였으며, Pre-training data의 quality가 중요한 역할을 하기 때문에 신중한 cleaning process가 필요하다는 연구 결과를 도출하였음.
✅ Training
- 거대한 모델 사이즈 때문에, LLM을 성공적으로 훈련하는 것은 매우 어려움. 이를 위해 Distributed training algorithms들이 필수적인데, 여기에서 다양한 Parallel strategies들이 함께 활용됨.
- 이를 위해 병렬 알고리즘의 활용을 용이하게 하기 위한 최적화 프레임워크들이 등장하였음. ex) DeepSpeed, Megatron-LM
✅ Ability eliciting
- large-scale copora에서 학습된 이후, LLM은 general-purpose task solver로서의 능력을 갖게 됨.
- 그러나 모든 테스크에 대해 일정하게 우수한 성능을 달성한다고 보기는 어려우며, 이러한 능력들을 이끌어내기 위해 CoT같은 ICL 전략이나 적절한 task에 대한 지침을 제공하는 등의 노력이 필요
✅ Alignment tuning
- 일반적으로 LLM이 사전 훈련에 활용된 low-quality data, high-quality data을 바탕으로 훈련되기 때문에, 그들은 유해하거나 편향되어 있는 콘텐츠를 인간에게 제공할 수 있음.
- 이에 따라 human values와 LLM을 align 시키는 것이 필수적임. 이를 위해 대표적으로 InstructGPT는 RLHF (reinformcement learning with human feedback)을 활용하기도 함.
- 이를 적용한 ChatGPT는 모욕적인 질문에 대한 답변 거부와 같은 strong alignment capacity를 보이는 것으로 알려져 있음.
- LLM은 기본적으로 massive plan text corpora에서 텍스트를 생성하기 때문에 numerical computation과 같은 형태의 텍스트에서 잘 동작하지 않을 수 있음. 또한 이들은 up-to-data information을 포착하는 데 어려움을 겪음.
- 이러한 문제를 해결하기 위해 최근 연구들은 external tools를 활용하기 시작함
- 정확한 계산을 위해 calculator를 활용
- search engines를 활용하여 unknown information을 반환해올 수 있음.
2-2. Technical Evolution of GPT-series Models
- ChatGPT는 인간과의 상호작용에서 뛰어난 성능을 보이고 있으며, 이것의 등장이후 AI 커뮤니티에 붐을 불러일으켰음.
- 이러한 ChatGPT는 GPT 모델에서 Conversation capacities를 향상시킨 강력한 모델이므로, 여기서는 GPT 시리즈의 발전에 대해 논의해보고자 함.
- 위 그림은 GPT-series 모델에 대한 기술적인 발전과정을 나타냄.
- GPT 모델의 근본적인 원리는 world knowledge를 decodger-only transformer에 language modeling으로 압축함으로써 general-purpose task solver의 역할을 할 수 있게 하는 것임.
- 이러한 성공에는 두 가지 키포인트가 있음.
- Decoder-only Transformer를 훈련하여 다음 단어를 정확하게 예측하는 것.
- Language model의 사이즈를 scale-up하는 것
A. Early Explorations
✅ GPT-1 (2018)
A. Radford, K. Narasimhan, T. Salimans, I. Sutskever et al., “Improving language understanding by generative pre-training,” 2018.
- 2017년, Transformer 모델이 Google에 의해 소개되었으며, OpenAI팀은 빠르게 이를 language modeling 작업에 활용하여 GPT-1이라는 새로운 아키텍처를 2018년에 공개함. (GPT: Generative Pre-Training)
- GPT-1은 generative를 근간으로 하며, decoder-only Transformer를 사용하고, unsupervised pretraining과 supervised fine-tuning이라는 hybrid approach를 활용함.
✅ GPT-2 (2019)
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., “Language models are unsupervised multitask learners,” OpenAI blog, p. 9, 2019.
-
GPT-1과 유사한 구조를 가졌지만, 파라미터 스케일을 1.5B 까지 증가시킨 모델. large webpage 데이터셋인 WebText로 학습되었음.
-
이 모델은 라벨링된 데이터를 바탕으로 한 명시적인 fine-tuning 없이도 unsupervised learning 만으로 다양한 테스크를 수행하는 것을 목표로 제작됨.
-
Background & Main Concept
- 그 당시 모델들은 모든 task에서 general하게 좋은 성능을 보여주는 것이 아닌, supervised fine-tuning을 통해 특정 테스크에 특화되어 있는 모습을 보이고 있었음.
- 저자들은 supervised fine-tuning없이 다양한 테스크에 대해 general하게 동작할 수 있는 unsupervised multitask learner를 만들고 싶어 했음.
- 다음과 같이 모델이 주어진 Task와 Input에 대한 Output을 도출해야 함을 강조, 또한 이 세 가지 요소들을 모두 단어의 sequence로 표현할 수 있다는 점에 주목함.
P(output∣input,task)
[Source] https://thegradient.pub/in-context-learning-in-context/
- 이는 각각의 NLP 테스크가 world text의 subset을 기반으로 하는 단어 예측 문제로 간주된다는 것을 의미함. (Task solving의 새로운 패러다임)
- 이러한 방식으로 구성된 데이터를 포함해 학습함으로써 unseen task에 대해서도 잘 동작하는 zero-shot learner를 만들었음.
B. Capacity Enhancement
- GPT-2가 unsupervised multitask learner로 소개되긴 했으나, 이것은 여전히 supervised fine-tuning sota 모델보다 inferior했음.
- GPT-2를 바탕으로 GPT-3은 generative pre-training architecture를 scaling함으로써 key capacity leap을 입증하였음.
✅ GPT-3 (2020)
T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language models are few-shot learners,” in Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin, Eds., 2020.
-
2020년에 공개된 이 모델은 175B의 모델 사이즈를 가짐 (이전 모델인 GPT-2가 1.5B)
-
GPT-3의 논문은 이 모델을 in-context learning (ICL)의 컨셉에서 소개하며, 여기서 LLM은 few-shot 또는 zero-shot 방식으로 활용됨.
-
ICL을 활용하면, 사전 훈련과 LLMs의 활용은 같은 language modeling 패러다임으로 귀결됨
- Pre-training 단계에서 모델은 context가 주어졌을 때 이어지는 text sequence를 예측함 (기본적인 language modeling)
- ICL은 주어진 task decription에 대한 correct task solution을 예측함 (text sqeuence 문제로 정의될 수 있음.)
-
GPT-3은 다양한 NLP 테스크에 대해 매우 우수한 성능을 보유하고 있을 뿐만 아니라 reasoning이나 doamin adaptation 능력을 요구하는 특정 테스크에 대해서도 잘 동작하는 것으로 나타남.
-
이 논문에서 저자들이 emergent abilities에 대해 직접적으로 언급하고 있지는 않지만, 모델을 상당한 크기로 늘렸을 때 성능이 크게 증가할 수 있다는 것을 경험적으로 보여준 사례임. (PLM과 LLM을 구별할 수 있는 remarkable landmark로 자리매김)
-
이러한 성능 때문에 GPT-3는 OpenAI의 LLMs의 base model로 활용되어 왔으며, OpenAI는 이를 향상시키기 위한 두 가지 주요 approach를 발견했음.
✅ Training on code data
M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P.
de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. HerbertVoss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba, “Evaluating large language models trained on code,” CoRR, vol. abs/2107.03374, 2021.
[Source] https://openai.com/index/openai-codex/
- plain text로 사전 훈련된 오리지날 GPT-3 모델의 주요 한계는 complex task에 대한 reasoning ability의 부족이었음. (e.g., solving math problem)
- 이러한 한계를 극복하기 위해 2021년 7월 OpenAI는 Codex를 공개했음. 이는 Github 코드로 fine-tuned된 GPT 모델임.
- 이들은 Codex가 매우 어려운 프로그래밍 문제를 해결할 수 있을 뿐만 아니라 math problems을 해결하는 데에도 큰 성능 향상을 이루었다고 밝힘.
- 사실 GPT-3.5 모델은 code-based GPT model (i.e., code-davinci-002) 모델에 기반한 모델이며, 이는 곧 code data로 훈련하는 것이 GPT 모델의 성능 향상에 크게 도움을 준다는 것을 나타냄. (특히 reasoning ability)
✅ Human alignment
P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep reinforcement learning from human preferences,” in Advances in Neural Information Processing Systems 30: Annual Conference on
Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 4299–4307.
- 2017년 OpenAI는 인간이 annotation한 preference comparisons 데이터와 강화학습을 통해 인간의 가치를 학습할 수 있다고 밝힘.
- 이 논문이 발표된 직후인 2017년 7월에 PPO(Proximal Policy Optimization) 논문이 발표되었으며, 이는 현재 human preferences를 학습하기 위한 foundational RL algorithm으로 사용되고 있음.
J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” arXiv preprint arXiv:1707.06347, 2017.
- 2020년 1월 말에 이 RL 알고리즘으로 fine-tuned된 GPT-2 시리즈의 후속 논문이 발표되었으며, 2022년 1월에는 human alignment를 개선한 GPT-3인 InstructGPT가 발표되었음. 이 논문에서 공식적으로 RLHF(Reinforcement learning from human feedback) 개념을 제시했음.
- 기본적으로 RLHF는 주어진 테스크를 완수할 수 있는 아웃풋을 생산하는 것 외에도 유해한 콘텐츠 생산을 막을 수 있는 역할도 했음.
- Alignment에 대해 더 궁금하자면 OpenAI가 배포한 아래 글을 참고하자.
OpenAI, “Our approach to alignment research,” OpenAI Blog, August 2
- 결과적으로, OpenAI에서 이러한 기법들을 바탕으로 GPT-3을 향상시켜 등장한 것이 GPT-3.5 모델임.
C. The Milestones of Language Models
- 이러한 노력을 바탕으로, OpenAI에 의해 소개된 두 가지 모델이 있음. ChatGPT와 GPT-4임.
✅ ChatGPT
[Source] https://www.weetechsolution.com/blog/what-is-openais-chatgpt-and-how-can-you-use-it
- 2022년 11월, OpenAI가 conversation model인 ChatGPT를 발표. (이는 GPT-3.5와 GPT-4를 베이스 모델로 함.)
- ChatGPT는 InstructGPT와 유사한 방식으로 학습되었음 (called "a sibling model to InstructGPT" in the original post) 그러면서도 dialoge에 특화된 모델이라고 할 수 있음.
- 특히, 두 모델은 학습 데이터에서 차별화되어 있음. ChatGPT의 데이터는 InstructGPT의 데이터에 추가적으로 human-generated conversations (playing both the roles of user and AI)를 훈련한 것임. 이를 통해 기본적인 상식, 인간의 지시를 이해하는 능력을 유지할 뿐만 아니라 multi-turn 대화이해 능력까지 보유할 수 있게 됨.
✅ GPT-4
[Source] https://www.youtube.com/watch?v=4joMUrqOWO8
- 2023년 3월 출시, 멀티모달 입력을 지원하는 모델임. GPT-3.5보다 더 복잡한 테스크를 해결할 수 있으며 추가적인 alignment (RLHF traninig) 통해 환각, 프라이버시, 악의적인 쿼리에 보다 안전하게 응답할 수 있게 됨.
- 또한 이때 OpenAI는 predictable scaling이라는 새로운 메커니즘을 소개하였음. (모델 훈련 중 small proportioin of compute 만으로 final performance를 정확히 예측할 수 있는 기법)
Predictable Scaling을 통해 하이퍼 파라미터 튜닝 등 반복적인 개선 작업에서 미래 성능을 중간 지점에서 미리 예측할 수 있어 불필요한 자원소모를 줄일 수 있었음.
✅ GPT-4V, GPT-4 turb, and beyond
OpenAI, “Gpt-4v(ision) system card,” OpenAI, 2023.
-
GPT-4V
- GPT-4 발표 후 OpenAI는 2023년 9월 GPT-4V를 공개하였음. 이는 GPT-4의 vision 기능의 안전한 배포에 초점을 두었음.
- 이는 강력한 멀티모달 러닝 시스템으로서 훌륭한 잠재력을 보여주며 다양한 시나리오에서 좋은 성과를 보여주고 있음.
-
GPT-4 turbo
- 이후 2023년 11월 OpenAI는 GPT-4 turbo를 공개하였음. 이는 GPT-4의 업그레이드 버전임. GPT-4 turbo는 향상된 model capacity, 확장된 knowledge source (up to April 2023), long context window (up to 128k tokens), cheaper price 등 다양한 특징을 가짐.
- 동시에 Assistants API가 런칭되면서 agent-like assistants 를 개발하기 엄청 쉬워졌음. 개발자들은 특정 지시사항이나 외부 전문지식을 추가하여 자신만의 챗봇을 만들고 서비스할 수 있게 됨.
- multimodal capacity도 크게 증가한 것으로 알려짐.
🍽️ 마무리하며
- 이렇게 큰 발전에도 불구하고 여전히 LLM에는 해결해야 할 문제들이 있음. (e.g., generating hallucinations and potentially risky response) 향후 더 capable하고 safer한 LLM을 만드는 것은 앞으로의 과제가 될 것임.
- OpenAI도 iterative deployment strategy를 통해 LLM을 사용할 때의 잠재적인 문제점들을 보다 효과적으로 줄이기 위한 연구를 진행하고 있음.
“Lessons learned on language model safety and misuse,” OpenAI blog, 2022.
✅ 작성자 생각
-
이 장에서는 LLM의 근간이 되는 주요 개념(Scaling Law, Emergent Abilitires), 그리고 이를 통해 얻을 수 있는 LLM의 주요기능 (Incontext-learning, step-by-step reasoning, instruction following) 그리고 이것으로 오기까지의 발전된 OpenAI의 GPT시리즈의 변천사를 간단히 소개함.
-
특히 기억에 남는 부분은, 옛날에 GPT 시리즈의 논문을 읽었을 때도 이 모델들이 어떻게 이것들(zero-shot multitask, in-context learning)을 가능하게 한다는 것인지 이해가 잘 가지 않았는데, 이제는 좀 이해할 것 같으면서도 이래서 오히려 인공지능 개발자들이 기술의 발전을 무서워하는구나 하는 마음이 들었음.
-
또한 중간에 OpenAI가 이미 트랜스포머가 등장하기 전에 RNN으로 language models 기반의 intelligent system을 만들려는 시도가 있었다고 했는데, '세상의 모든 문제는 다음 단어 예측으로 연결된다' 라는 생각을 그때 당시에 했다는 게 신기함. (우리나라 말타고 다닐 때 영국은 증기기관차 타고 다닌 게 이런 느낌일까)
121] A. Radford, R. Jozefowicz, and I. Sutskever, “Learning to generate reviews and discovering sentiment,” CoRR, vol. abs/1704.01444, 2017.
멋져요