“GPT는 멀티태스크 학습을 따로 하지 않아도 왜 여러 작업을 처리할 수 있을까?”
많은 분들이 궁금해하는 이 질문의 핵심은 출력의 통일성, 즉 “모든 출력이 텍스트 생성”이라는 점에 있습니다. 이 글에서는 GPT의 멀티태스크적 활용 가능성과 그 한계를 알기 쉽게 설명해드립니다.
GPT(특히 GPT-2 이후의 모델)는 기본적으로 다음 단어 예측(next-token prediction)을 수행하는 모델입니다. 그런데 이 단순한 구조로도 질문응답, 번역, 요약, 감정 분석 등 다양한 과제를 수행할 수 있어요.
모든 과제를 아래와 같이 동일한 언어 생성 문제로 표현할 수 있기 때문입니다.
입력 텍스트(프롬프트) → GPT → 다음 단어 예측(텍스트 생성)
예시로 살펴볼까요?
질문응답
입력: Q: What is the capital of France? A:
출력: Paris.
번역
입력: Translate to French: 'Good morning'
출력: Bonjour.
감정 분석
입력: Sentence: 'I love this movie.' Sentiment:
출력: positive.
→ 이렇게 출력 형태를 통일시키면, 하나의 모델로 여러 작업을 “프롬프트만 바꾸어” 수행할 수 있습니다.
GPT는 “출력을 텍스트 생성으로 단일화”함으로써, 다양한 과제를 마치 멀티태스크처럼 수행할 수 있습니다.
하지만 “모든 문제를 텍스트로 표현할 수 있어야 한다”는 제약이 있으며, 구조적 결과, 분포 기반 예측, 멀티모달 처리 등에는 한계가 존재합니다.