Large Language Models – Emerging ability

All about IT·2024년 1월 20일
post-thumbnail

LLM에는 특별한 능력이 있다. 이러한 능력들은 작은 모델에서는 보이지 않지만, 큰 모델에서만 나타나게 된다. 이런 특별한 능력 때문에 LLM은 이전의 언어 모델과는 확연히 구별되며, 이 능력을 'Emerging abilities'라고 한다. 모델의 크기가 특정 크기 이상으로 커지면 Emerging abilities가 나타나게 된다. 모델의 종류마다 그 크기는 다르지만, 많은 언어모델에서 일정 크기 이상으로 커졌을 때 Emerging abilities가 발현되는 현상을 보였다. Emerging abilities가 발현되는 시점에서 언어 모델은 성능이 급격하게 향상된다. 이는 물리학에서 '상전이' 현상과 비슷한 패턴을 보이는데, 여기서 '상전이'는 물이 얼거나 녹는 것처럼 물질이 한 상태에서 다른 상태로 변하는 현상을 말한다. 아래에서는 Emerging abilities에서 나타나는 대표적인 세 가지를 간단히 소개하고자 한다.

In-Context Learning(ICL)

문맥 내 학습은 어떤 언어 모델에 자연어로 된 지시사항이나 몇 가지 작업 예시들을 주면, 주어진 문장들을 바탕으로 예상되는 답변을 생성하는 능력이다. 다시 말해, 단순히 다음에 올 단어를 예측하는 것이 아니라, 문맥을 이해하는 것처럼 행동한다는 것이다. 이 말은 곧 특정 작업을 위해 추가적으로 학습이나 업데이트를 하지 않아도, 프롬프트만으로 그 작업에 대한 설명을 해 주면 답변을 받을 수 있다는 의미이다.

이 능력은 OpenAI의 GPT-3에서 잘 나타난다. GPT-3는 여러 가지 버전이 있는데, 그중 가장 큰 모델은 1750억 개의 매개변수를 가진 모델이 이런 능력을 잘 보여준다. 하지만 그 이전 버전인 GPT-1, GPT-2 모델에서는 이러한 능력이 발현되지 않았다.

그리고 이 능력이 모든 작업에 대해 잘 동작하는 것은 아니다. 예를 들어, 130억 개의 매개변수를 가진 GPT-3 모델의 경우 3자리 수의 덧셈과 뺄셈 문제를 잘 풀 수 있지만, 페르시아어로 된 질문과 답변 작업에는 좋은 성능을 보이지 못했다.

Instruction Following

명령어 따르기는 말 그대로 명령을 내리면 그에 따른 행동을 하는 것이다. 여기서 주목할 점은, 이 언어모델은 입력 명령으로만 이루어져 있다는 전제로 만들어지지 않았다는 것이다. 원래 언어모델은 확률적으로 입력 다음에 오기에 적합한 문장을 예측하여 출력하는 원리로 이루어져 있다는 것을 기억하자.

인간의 대화는, 명령형으로 말하는 것 이외에도 많은 대화 방식이 있다. 또한, 대화가 아닌 문장을 작성하기 위해서도 언어를 사용한다. 무조건 명령을 따르는 시스템이 아닌 이 언어모델은 사용자가 말하는 내용이 명령인지 아닌지를 식별하여 그에 맞게 행동한다는 것에서 큰 진전을 이루었다고 할 수 있다.

연구 결과에 의하면, Instruction tuning된 LaMDA-PT 모델은 모델 크기가 68B에 도달했을 때 이러한 뛰어난 성능을 보이기 시작했지만, 8B 이하의 모델 크기에서는 그렇지 않았다. 또한 PaLM이 네 가지 평가 벤치마크(MMLU, BBH, TyDiQA, MGSM)에서 다양한 작업을 잘 수행하려면 최소한 62B의 모델 크기가 필요한 것으로 나타났고, 일부 특정 작업(예: MMLU)의 경우 훨씬 작은 크기로도 이러한 기능이 발현되는 경우도 있었다.

Step-by-Step Reasoning

언어모델의 경우 논리적 추론이 필요한 복잡한 문제를 해결하기 힘들어하는 경향이 있다. 그도 그럴 것이, 이 모델은 본디 언어를 잘 구사하기 위해 만들어진 모델일 뿐, 논리적 추론을 잘 하기 위한 별도의 장치를 가지고 있지 않기 때문이다. 하지만 언어 능력을 고도화시키다 보니, 문장을 말하기 위한 논리력도 함께 증가하여 논리적 추론 단계별로 세밀하게 지시해 주면 논리적 추론도 가능한 단계에 이르렀다. 그리고 아직 확실한 것은 아니지만, 추측하기로 이런 능력은 프로그램을 만들기 위한 코드를 학습시킨 결과 잠재적으로 얻어진 능력이라고 생각한다.

이러한 사고의 과정을 정의해 주는 프롬프트 기법을 'Chain of Thought' 전략이라고 한다. 이에 대해서는 추후 'Prompt Engineering'에 대해 설명하는 글에서 자세하게 언급하도록 하겠다. 이러한 추론 능력은 PaLM이나 LaMDA 모델에서 600억 개의 매개변수보다는 좀 더 큰 모델에서 제대로 발현되는 것으로 보이고, 1000억 개 이상의 매개변수를 가졌을 때 확실하게 발현되는 것으로 보인다.

profile
기존 강의에 만족 못했던 사람들을 위한 블로그

0개의 댓글