GPT는 왜 그렇게 많은 일을 할 수 있을까요? 번역도 하고, 요약도 하고, 질문에 답도 하죠. 놀랍게도 GPT는 각 작업의 규칙을 따로 배우지 않았습니다.
그 비결은 바로 모든 작업을 '자연어 시퀀스'로 표현해서 통합된 방식으로 학습한다는 점에 있습니다.
이 글에서는 GPT가 다양한 작업을 하나의 형식으로 다루는 원리를 설명하고, 왜 이것이 그렇게 강력한 방식인지 알아봅니다.
GPT는 번역, 질의응답, 감정 분류 같은 서로 다른 작업을 동일한 형식으로 처리합니다.
전통적인 방식:
입력: Hello, how are you?
출력: Bonjour, comment ça va ?
GPT 방식 (시퀀스 통합):
translate English to French: Hello, how are you? → Bonjour, comment ça va ?
이 전체가 하나의 텍스트 시퀀스이고, GPT는 좌측을 보고 우측을 예측합니다.
answer the question: What is the capital of France? context: Paris is the capital of France. → Paris
여기서도 "answer the question:"
은 GPT에게는 그저 입력 토큰의 일부일 뿐, 특별한 구조가 아닙니다.
classify sentiment: The movie was fantastic! → positive
작업마다 별도의 분기 처리나 모델을 설계할 필요 없이, 모두 자연어 프롬프트로 해결됩니다.
그렇습니다. GPT는 명시적인 작업 설명 없이도 문맥을 통해 어떤 작업인지 스스로 유추할 수 있습니다.
예를 들어:
The food was awful. → negative
The service was great. → positive
It was boring. →
이런 예시만 보여줘도, GPT는 "이건 감정 분류야"라고 스스로 파악하고 "negative"
라고 예측할 수 있습니다. 이를 암묵적 작업 추론(implicit task inference)이라고 합니다.
핵심은 바로 사전학습(pretraining)입니다.
"Translate English to German: ..."
"Review: ... → positive"
"Question: ... Answer: ..."
이런 패턴을 수없이 보다 보니, 새로운 문장도 형태적 유사성으로 태스크를 유추할 수 있습니다.
단계 | 역할 |
---|---|
Pretraining | task 명시 없이 방대한 문맥 속 패턴을 익힘 |
Fine-tuning | 특정 task 스타일을 반복적으로 노출하여 적응 |
결국 GPT는 task 설명이 있든 없든, 문맥과 예시만으로도 작업을 처리할 수 있게 되는 겁니다.
상황 | GPT의 전략 |
---|---|
명시적 지시 있음 | 텍스트 내 task 설명을 그대로 해석 |
지시 없음 | 문맥, 예시, 패턴 기반으로 작업을 추론 |
pretraining 중 | 다양한 작업 형식을 자연어 시퀀스로 노출 |
실제 사용 시 | 사용자 프롬프트만 보고 작업을 바로 수행 |
GPT가 다재다능한 이유는 단순합니다.
“모든 작업을 텍스트로 표현해, 동일한 방식으로 학습한다.”
즉, 번역이든 요약이든 자연어로 문제를 설명하고, 답변도 자연어로 출력하는 방식이기에 GPT는 어떤 task든 하나의 언어 모델로 해결할 수 있는 것이죠.