모든 작업은 텍스트다: GPT의 통합 학습 방식 이해하기

Bean·2025년 7월 7일

인공지능

목록 보기

77/123

GPT는 왜 그렇게 많은 일을 할 수 있을까요? 번역도 하고, 요약도 하고, 질문에 답도 하죠. 놀랍게도 GPT는 각 작업의 규칙을 따로 배우지 않았습니다.

그 비결은 바로 모든 작업을 '자연어 시퀀스'로 표현해서 통합된 방식으로 학습한다는 점에 있습니다.

이 글에서는 GPT가 다양한 작업을 하나의 형식으로 다루는 원리를 설명하고, 왜 이것이 그렇게 강력한 방식인지 알아봅니다.

GPT는 번역, 질의응답, 감정 분류 같은 서로 다른 작업을 동일한 형식으로 처리합니다.

전통적인 방식:

입력: Hello, how are you?
출력: Bonjour, comment ça va ?

GPT 방식 (시퀀스 통합):

translate English to French: Hello, how are you? → Bonjour, comment ça va ?

이 전체가 하나의 텍스트 시퀀스이고, GPT는 좌측을 보고 우측을 예측합니다.

answer the question: What is the capital of France? context: Paris is the capital of France. → Paris

여기서도 "answer the question:"은 GPT에게는 그저 입력 토큰의 일부일 뿐, 특별한 구조가 아닙니다.

classify sentiment: The movie was fantastic! → positive

작업마다 별도의 분기 처리나 모델을 설계할 필요 없이, 모두 자연어 프롬프트로 해결됩니다.

그렇습니다. GPT는 명시적인 작업 설명 없이도 문맥을 통해 어떤 작업인지 스스로 유추할 수 있습니다.

예를 들어:

The food was awful. → negative  
The service was great. → positive  
It was boring. →

이런 예시만 보여줘도, GPT는 "이건 감정 분류야"라고 스스로 파악하고 "negative"라고 예측할 수 있습니다. 이를 암묵적 작업 추론(implicit task inference)이라고 합니다.

핵심은 바로 사전학습(pretraining)입니다.

이런 패턴을 수없이 보다 보니, 새로운 문장도 형태적 유사성으로 태스크를 유추할 수 있습니다.

단계	역할
Pretraining	task 명시 없이 방대한 문맥 속 패턴을 익힘
Fine-tuning	특정 task 스타일을 반복적으로 노출하여 적응

결국 GPT는 task 설명이 있든 없든, 문맥과 예시만으로도 작업을 처리할 수 있게 되는 겁니다.