GPT는 왜 멀티태스크처럼 동작할까? — ‘출력 통일성’에 숨겨진 비밀

Bean·2025년 7월 6일

AI모델구조 AI한계 GPT GPT활용법 멀티태스크 언어모델 자연어처리 텍스트생성 프롬프트엔지니어링

인공지능

목록 보기

75/131

들어가며

“GPT는 멀티태스크 학습을 따로 하지 않아도 왜 여러 작업을 처리할 수 있을까?”
많은 분들이 궁금해하는 이 질문의 핵심은 출력의 통일성, 즉 “모든 출력이 텍스트 생성”이라는 점에 있습니다. 이 글에서는 GPT의 멀티태스크적 활용 가능성과 그 한계를 알기 쉽게 설명해드립니다.

1. GPT는 왜 멀티태스크처럼 보일까?

GPT(특히 GPT-2 이후의 모델)는 기본적으로 다음 단어 예측(next-token prediction)을 수행하는 모델입니다. 그런데 이 단순한 구조로도 질문응답, 번역, 요약, 감정 분석 등 다양한 과제를 수행할 수 있어요.

1.1. 핵심 원리

모든 과제를 아래와 같이 동일한 언어 생성 문제로 표현할 수 있기 때문입니다.

입력 텍스트(프롬프트) → GPT → 다음 단어 예측(텍스트 생성)

예시로 살펴볼까요?

질문응답

입력: Q: What is the capital of France? A:
출력: Paris.

번역

입력: Translate to French: 'Good morning'
출력: Bonjour.

감정 분석

입력: Sentence: 'I love this movie.' Sentiment:
출력: positive.

→ 이렇게 출력 형태를 통일시키면, 하나의 모델로 여러 작업을 “프롬프트만 바꾸어” 수행할 수 있습니다.

2. 이 방식의 장점은?

구조적 강점

아키텍처나 출력층을 수정하지 않아도 다양한 태스크에 대응 가능
대규모 데이터셋에 자연스럽게 다양한 과제 유형이 포함됨 → 간접적인 멀티태스크 학습 효과
유지보수가 간편: 하나의 모델만 관리하면 됨

3. 그렇지만 한계도 분명하다

1) 텍스트로 표현 불가능한 과제

예: 로봇의 움직임 결정(강화학습), 이미지 생성 등
→ GPT는 오직 텍스트만 출력 가능하므로 이런 작업은 수행 불가

2) 출력 포맷 강제 필요

점수 예측 등에서는 “The rating is 4.”처럼 출력을 텍스트로 우회해야 함
형식이 깨지면 후처리나 평가가 어려워짐

3) 불확실성 표현 어려움

확률 분포나 다중 선택 문제에 약함
→ 항상 “가장 가능성 높은 단어” 하나만 생성함

4) 구조적인 출력이 필요한 경우 약점

예: 개체명 인식(NER, Named Entity Recognition)처럼 단어마다 태그가 필요한 과제는 GPT에 부적합

5) 모달리티 제한

GPT는 순수 텍스트 전용
음성, 이미지, 영상 등은 다룰 수 없음
→ GPT-4o와 같은 멀티모달 확장은 이를 극복하기 위한 시도

4. 실제 사례

GPT-3: OpenAI API를 통해 번역, 요약, 코드 생성 등을 하나의 모델로 제공
GPT-4 (ChatGPT): 유저가 어떤 작업을 요청하든, 하나의 대화형 모델이 대응
→ 단, 안정성을 위해 후처리 시스템이 함께 작동함 (출력 필터링, 포맷 검증 등)