좋습니다. GPT 모델의 동작 원리를 중심으로, 다음 다섯 가지 주제에 대해 심층적으로 정리하겠습니다:
공식 출처는 OpenAI 공식 문서, arXiv 논문, Medium의 OpenAI 내부자 글, 그리고 MIT 등 아이비리그급 연구기관 논문을 우선적으로 사용하겠습니다.
조사 결과가 준비되면 바로 알려드릴게요.
GPT-계열(Generative Pre-trained Transformer) 모델들은 모두 Transformer 디코더 구조를 기반으로 하며, 대규모 언어 데이터에 대한 비지도(pre-training) 학습을 통해 언어 이해·생성 능력을 갖춘 자기회귀(autoregressive) 언어모델이다. 이 보고서에서는 GPT-2, GPT-3, GPT-3.5(ChatGPT), GPT-4의 아키텍처와 규모, 학습 데이터, 성능 차이를 비교하고, 학습 과정과 토큰 예측 메커니즘, Self-Attention 동작 원리, 블랙박스 해석법을 살펴본다.
GPT 모델은 비지도학습(self-supervised learning) 방식으로 대규모 말뭉치를 학습한다. 구체적으로 자기회귀 언어모델링(autoregressive language modeling) 과제 하에, 주어진 문맥(이전 토큰들)에 이어 등장할 다음 토큰을 예측하도록 학습된다 ([2005.14165] Language Models are Few-Shot Learners). 학습 시점에는 토큰화(tokenization)된 문장을 입력으로 받아, 모델이 각 위치에서 다음 토큰의 발생 확률 분포를 출력하도록 한다. 이때 손실 함수로는 실제 정답 토큰과 예측 분포 간의 교차 엔트로피(cross-entropy)를 사용하여 예측오차를 최소화한다. 요약하면, 언어모델 학습은 “가능도(likelihood) 최대화” 문제로 볼 수 있으며, 모델 파라미터는 전체 훈련 말뭉치의 토큰 시퀀스에 대한 로그 가능도를 최대화(또는 평균 교차 엔트로피 최소화)하도록 업데이트된다.
학습 단계에서는 일반적으로 Adam 등의 옵티마이저를 사용하며, GPT-3 기술보고서에 따르면 모든 모델이 총 3000억 토큰에 걸쳐 학습되었다 ([2005.14165] Language Models are Few-Shot Learners). 학습 데이터 준비 시에는 Common Crawl 크롤링 자료를 필터링·정제하고, 추가적으로 웹문서·도서·위키피디아 같은 고품질 코퍼스를 포함시킨다 ([2005.14165] Language Models are Few-Shot Learners). 이 과정에서 데이터 중복 제거(장문 단위)와 언어별 분산을 조절해 일반화 성능을 높인다. 학습 종료 후에는 파라미터 고정(“프리트레인된 모델”)으로 남겨지거나, 이후 필요한 경우 특정 과제용 미세조정(fine-tuning)을 거치기도 한다(GPT-3.5의 경우 대화형 성능 향상을 위해 RLHF를 적용한 대표적 예).
GPT 모델이 실제 텍스트를 생성할 때, 입력된 토큰(문맥)으로부터 다음 토큰 확률 분포를 계산하는 과정은 다음과 같다. 우선 입력 토큰은 임베딩 계층을 통해 고정된 차원의 실수 벡터로 변환되고, 위치 인코딩이 더해진다(Transformer 특성상 토큰 순서를 인코딩하기 위함). 이후 여러 겹의 Transformer 블록(각 블록은 Self-Attention + Feed-Forward 층)으로 전달되어 문맥이 축적된 히든 표현이 계산된다. 최종 블록의 출력벡터(히든 상태) 중 마지막 위치의 벡터 (h)를 취해, 어휘(vocabulary) 크기 만큼의 차원을 갖는 선형 변환을 적용한다. 즉, 선형 계층의 가중치 행렬 (W)와 벡터 (b)를 곱하여 로짓(logit) 벡터 (z = W h + b)를 얻는다. 마지막으로 이 로짓에 소프트맥스(softmax) 함수를 적용하여 정규화된 확률 분포를 구한다. 이 과정을 요약하면 다음과 같다:
[
p(\text{next token}\mid \text{context}) \;=\; \mathrm{softmax}(W h + b).
]
OpenAI의 기술문헌에서도 “Transformer 출력에 학습된 선형 변환과 softmax 함수를 사용하여 다음 토큰 확률을 계산”한다고 언급되어 있다 ([1706.03762] Attention Is All You Need). 이 분포에서 가장 높은 확률을 가진 토큰을 예측하거나, 확률에 따라 샘플링하여 텍스트를 순차적으로 생성해 나간다.
GPT 모델의 핵심 구성 요소인 Self-Attention은 입력 시퀀스 내의 모든 토큰 간의 상호작용을 학습한다. Self-Attention 동작은 다음과 같은 단계로 이루어진다 ([1706.03762] Attention Is All You Need): 각 입력 벡터로부터 Query((Q)), Key((K)), Value((V)) 벡터를 선형 변환을 통해 생성한다. 그런 다음 각 쿼리 (q_i)에 대해 모든 키 (k_j)와의 유사도를 계산하는데, 보통 내적(dot product)을 수행하여 (q_i \cdot k_j)를 구한다. 이 값을 ( \sqrt{d_k} ) (key 벡터 차원)의 제곱근으로 나눈 후 소프트맥스를 적용하여 i-th 토큰이 j-th 토큰에 주목할 가중치를 얻는다. 마지막으로 이 가중치를 값 (v_j)에 곱하여 값들을 가중합하면, i번째 토큰의 출력 벡터가 계산된다. 수식으로 요약하면 다음과 같다 ([1706.03762] Attention Is All You Need):
[
\text{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\tfrac{QK^\top}{\sqrt{d_k}}\bigr)V.
]
이때 중요한 점은 Scaled Dot-Product Attention을 사용한다는 것이며, 큰 차원에서 내적 값이 커지는 문제를 ( \sqrt{d_k} )로 스케일링하여 해결한다 ([1706.03762] Attention Is All You Need).
또한 GPT는 Multi-Head Attention 구조를 채택하여, 서로 다른 선형 투영을 통해 생성된 여러 쌍의 Q,K,V에 대해 병렬로 어텐션을 수행한다 ([1706.03762] Attention Is All You Need). 각 헤드(head)는 서로 다른 부분 공간(subspace)에서 어텐션을 계산하므로, 모델은 입력 내 여러 종류의 연관 관계를 동시에 학습할 수 있다. 이러한 병렬 헤드의 출력을 모두 연결(concatenate)한 후 다시 선형 변환함으로써 최종 어텐션 출력을 얻는다 ([1706.03762] Attention Is All You Need).
한편 Transformer는 순서를 내재적으로 처리하는 순환 구조가 없으므로 위치 인코딩(Position Encoding)을 사용한다. 입력 임베딩에 위치 정보를 더하여 토큰의 순서 정보를 제공하는데, 원조 Transformer에서는 차원마다 사인, 코사인 함수로 주기를 다르게 한 기저(基底) 벡터를 사용했다 ([1706.03762] Attention Is All You Need). 즉, 고정된 주기적 함수를 통해 각 위치에 대한 인코딩 벡터를 계산하여 임베딩에 합산한다 ([1706.03762] Attention Is All You Need). 이렇게 함으로써 토큰 순서를 모형이 학습할 수 있게 된다.
대규모 GPT 모델의 내부 작동 메커니즘을 해석하려는 시도들도 활발히 연구되고 있다. 주요 접근 방식으로는 Probing Classifier, Attention 분석, Feature Attribution 등이 있다.
이 밖에도 기계적 해석(mechanistic interpretability) 연구가 진행 중이다. 예를 들어, GPT-2 작은 모델의 내부 회로를 분석하여 “간접목적어 식별(IOI)”과 같은 특정 과제를 수행하는 소규모 주석 그래프(subgraph)를 발견한 사례가 있다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models). 이러한 연구들은 특정 뉴런이나 헤드가 수행하는 역할을 밝혀내, 모델의 “블랙박스” 동작을 점차 가시화하려는 시도로 볼 수 있다.
① GPT 계열 모델 비교
항목 | GPT-2 | GPT-3 | GPT-3.5 (ChatGPT core) | GPT-4 |
---|---|---|---|---|
최초 공개 | 2019 | 2020 | 2022 (추정) | 2023 |
파라미터 | 1.5 B | 175 B (8 크기 중 최대) | ≈ 175 B (추정) | 비공개 (업계 추정 > 200 B) |
컨텍스트 길이 | 1 024 tokens (Language Models are Unsupervised Multitask Learners) | 2 048 tokens | 4 096 tokens (API 기본) | 8 192 / 32 768 tokens (Turbo 확장) (GPT-4) |
학습 데이터·규모 | WebText 8 M 문서 ≈ 40 GB 텍스트 (Language Models are Unsupervised Multitask Learners) | Common Crawl + Books + Wiki 등, 300 B tokens | GPT-3 데이터 + 대화로그, RLHF 후속학습 | 공개·라이선스·시뮬레이션 혼합, 멀티모달 입력(텍스트+이미지) |
아키텍처 특징 | Transformer-decoder 48 layer | Dense + Sparse Transformer, 96 layer | GPT-3 아키텍처 + 대화특화 RLHF | 멀티모달 Transformer, 예측적 스케일링 인프라 |
대표 성과 | 8개 LM 벤치마크 중 7개 SOTA (Zero-shot) ([[PDF] Language Models are Unsupervised Multitask Learners | OpenAI](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf?utm_source=chatgpt.com)) | 다수 NLP 과제에서 few-shot SOTA 수준 | Chat 품질 대폭 향상(Bar exam 하위 10%) |
② 학습·추론 파이프라인 요약
단계 | 핵심 내용 | 공식 근거 |
---|---|---|
사전학습 | 자기회귀 LM 목표(다음 토큰 예측), 크로스엔트로피 최소화 | GPT-3 논문 §2.1 – §2.3 |
토크나이저 | BPE 변형(≈ 50 k vocab) / UTF-8 바이트 수준 | GPT-2 논문 §2.2 (Language Models are Unsupervised Multitask Learners) |
최적화 | Adam W & Linear decay; 수 PB-days 규모 연산 | GPT-3 Table 2.2 & Fig 2.2 |
후속 튜닝 | 지시어-튜닝 + RLHF (특히 GPT-3.5, GPT-4) | GPT-4 Tech Report §1 & §2 |
추론(생성) | Transformer 출력 → 선형 W h + b → Softmax 로 다음 토큰 확률 | Transformer 논문 Eq.(1)·Fig 2, GPT 시리즈 동일 ([1706.03762] Attention Is All You Need) |
③ Self-Attention & Transformer 핵심 공식
메커니즘 | 수식·개념 | 출처 |
---|---|---|
Scaled Dot-Product Attention | Vaswani et al., 2017 Eq.(1) ([1706.03762] Attention Is All You Need) | |
Multi-Head Attention | 서로 다른 선형 투영 h 개 병렬 수행 후 concat | 동일 논문 Fig 2 ([1706.03762] Attention Is All You Need) |
Positional Encoding | 각 토큰 위치별 주기 벡터 합산 | Vaswani et al., §3.5 ([1706.03762] Attention Is All You Need) |
④ 블랙박스 해석(Interpretability) 기법
접근법 | 설명 | 대표 연구·사례 |
---|---|---|
Probing Classifier | 은닉 표현→선형 분류기로 언어·사실 정보 추출 | Li et al. (2023) “Truthfulness Heads” ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models) |
Attention 시각화 | 어텐션 가중치 Heat-map/Graph 로 토큰 간 의존 파악 | Mareček & Rosa (2019) 분석 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models) |
Feature Attribution | Integrated Gradients·SHAP 등으로 토큰 기여도 정량화 | Modarressi et al. (2022) 정리 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models) |
Mechanistic Circuit | GPT-2-small 내 IOI 서브그래프 (26 heads) 해부 | Wang et al. (2022) 회로 해석 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models) |
TIP — 읽는 법
• 각 셀 아래 괄호 속 숫자는 해당 논문의 핵심 문단·표를 인용한 것입니다.
• 파라미터/컨텍스트 값은 논문·공식문서 기준이며, GPT-4 매개변수는 비공개라 추정치만 기재했습니다.
이렇게 표 형태로 정리하면 모델 간 차이, 학습 파이프라인, 내부 메커니즘, 그리고 해석 가능성 연구까지 한눈에 비교·검토할 수 있습니다.