블랙박스 해석(Interpretability) 기법

moon.kick·2025년 5월 1일

interpretability

letter to dongi295

목록 보기

3/3

좋습니다. GPT 모델의 동작 원리를 중심으로, 다음 다섯 가지 주제에 대해 심층적으로 정리하겠습니다:

GPT 계열 모델(GPT-2, GPT-3, GPT-3.5, GPT-4 등)의 비교 정리
모델 학습(트레이닝) 과정
토큰 예측 메커니즘
Self-Attention의 작동 원리
블랙박스 성격의 해석 가능성 및 관련 기법들

공식 출처는 OpenAI 공식 문서, arXiv 논문, Medium의 OpenAI 내부자 글, 그리고 MIT 등 아이비리그급 연구기관 논문을 우선적으로 사용하겠습니다.

조사 결과가 준비되면 바로 알려드릴게요.

GPT 계열 모델의 내부 동작 원리

GPT-계열(Generative Pre-trained Transformer) 모델들은 모두 Transformer 디코더 구조를 기반으로 하며, 대규모 언어 데이터에 대한 비지도(pre-training) 학습을 통해 언어 이해·생성 능력을 갖춘 자기회귀(autoregressive) 언어모델이다. 이 보고서에서는 GPT-2, GPT-3, GPT-3.5(ChatGPT), GPT-4의 아키텍처와 규모, 학습 데이터, 성능 차이를 비교하고, 학습 과정과 토큰 예측 메커니즘, Self-Attention 동작 원리, 블랙박스 해석법을 살펴본다.

1. 모델별 비교

GPT-2 (2019): 48-layer 트랜스포머로 구성된 모델이며, 약 15억(1.5B) 개의 파라미터를 갖는다 (Language Models are Unsupervised Multitask Learners). 웹페이지 800만여 개에서 추출한 약 40GB 분량의 WebText 코퍼스로 학습되었으며 (Language Models are Unsupervised Multitask Learners), zero-shot(사전학습만으로 테스트) 환경에서 8개 언어모델링 과제 중 7개에서 최첨단 성능을 기록했다 (Language Models are Unsupervised Multitask Learners). GPT-2는 GPT-1 대비 파라미터 수와 학습 데이터량을 10배 이상 확장시켜, 장문의 일관된 텍스트 생성 능력을 획기적으로 향상시켰다 (Language Models are Unsupervised Multitask Learners).
GPT-3 (2020): GPT-2와 동일한 Transformer 구조를 사용하되, 일부 층에서는 Sparse Transformer 기법으로 희소화된 어텐션을 적용했다 ([2005.14165] Language Models are Few-Shot Learners). 파라미터 수는 소형(1억 2천5백만)에서 대형(1750억)까지 8개 크기가 있으며, 최대 1750억(175B) 파라미터 모델이 포함된다 ([2005.14165] Language Models are Few-Shot Learners). 모델 크기에 따라 은닉층 차원(“bottleneck” 크기)은 768~12288까지 다양하며, 모든 모델은 최대 2048 토큰의 문맥을 처리한다 ([2005.14165] Language Models are Few-Shot Learners). 학습 데이터는 Common Crawl 기반 웹 코퍼스와 대규모 영어 도서·위키피디아 등을 전처리(중복 제거, 고품질 필터링 등)하여 구성했으며, 모든 모델은 총 약 3천억 토큰의 데이터로 학습되었다 ([2005.14165] Language Models are Few-Shot Learners). 성능 면에서 GPT-3는 수십 개 NLP 벤치마크에서 few-shot(소수 예시) 환경으로 뛰어난 성능을 보였으며, fine-tuning 없이도 사전학습만으로 많은 언어 과제를 풀어내는 능력을 입증했다 ([2005.14165] Language Models are Few-Shot Learners) ([2005.14165] Language Models are Few-Shot Learners). 예를 들어 GPT-3 175B 모델은 뉴스 기사를 생성했을 때 인간 판별자가 실제 기사와 구별하기 어려울 정도의 텍스트를 생성해낸다 ([2005.14165] Language Models are Few-Shot Learners).
GPT-3.5 (ChatGPT): GPT-3와 동일한 아키텍처(약 175B 파라미터)를 기반으로, 대화 중심으로 추가 학습(fine-tuning) 및 RLHF(인간 피드백 강화학습) 과정을 거친 모델들이다. 구체적인 내부 수치는 공개되지 않았지만, 대화형 태스크에 특화된 튜닝을 통해 GPT-3보다 응답 품질이 현격히 향상되었다. 벤치마크 성능 기준으로, GPT-4 기술보고서에 따르면 GPT-3.5는 법학 시험(Bar Exam)에서 상위 10%에 든 GPT-4와 달리 하위 10% 점수를 기록했을 정도로 큰 성능 차이를 보였다.
GPT-4 (2023): GPT-4는 공식적으로 공개된 기술보고서에 따르면 대규모 멀티모달 Transformer 모델로, 텍스트뿐 아니라 이미지 입력도 처리할 수 있다. 아키텍처 세부사항(층 수, 파라미터 수 등)은 공개되지 않았으나, GPT-3 대비 훨씬 큰 규모로 추정된다. 트랜스포머 기반 언어모델로서 next-token 예측 과제로 사전학습되었고, 이후 RLHF 등을 통한 정렬(alignment) 과정을 거쳤다. GPT-4는 다양한 시험·벤치마크에서 GPT-3.5를 크게 능가하며(예: 모의 변호사 시험 상위 10% 기록, MMLU 벤치마크 다국어 성능 SOTA) 뛰어난 성과를 보였다. 다만 GPT-2/3 시리즈와 마찬가지로 “가짜 정보(헬루시네이션)” 문제나 제한된 문맥 길이 등 한계를 공유한다.

2. 트레이닝 과정

GPT 모델은 비지도학습(self-supervised learning) 방식으로 대규모 말뭉치를 학습한다. 구체적으로 자기회귀 언어모델링(autoregressive language modeling) 과제 하에, 주어진 문맥(이전 토큰들)에 이어 등장할 다음 토큰을 예측하도록 학습된다 ([2005.14165] Language Models are Few-Shot Learners). 학습 시점에는 토큰화(tokenization)된 문장을 입력으로 받아, 모델이 각 위치에서 다음 토큰의 발생 확률 분포를 출력하도록 한다. 이때 손실 함수로는 실제 정답 토큰과 예측 분포 간의 교차 엔트로피(cross-entropy)를 사용하여 예측오차를 최소화한다. 요약하면, 언어모델 학습은 “가능도(likelihood) 최대화” 문제로 볼 수 있으며, 모델 파라미터는 전체 훈련 말뭉치의 토큰 시퀀스에 대한 로그 가능도를 최대화(또는 평균 교차 엔트로피 최소화)하도록 업데이트된다.

학습 단계에서는 일반적으로 Adam 등의 옵티마이저를 사용하며, GPT-3 기술보고서에 따르면 모든 모델이 총 3000억 토큰에 걸쳐 학습되었다 ([2005.14165] Language Models are Few-Shot Learners). 학습 데이터 준비 시에는 Common Crawl 크롤링 자료를 필터링·정제하고, 추가적으로 웹문서·도서·위키피디아 같은 고품질 코퍼스를 포함시킨다 ([2005.14165] Language Models are Few-Shot Learners). 이 과정에서 데이터 중복 제거(장문 단위)와 언어별 분산을 조절해 일반화 성능을 높인다. 학습 종료 후에는 파라미터 고정(“프리트레인된 모델”)으로 남겨지거나, 이후 필요한 경우 특정 과제용 미세조정(fine-tuning)을 거치기도 한다(GPT-3.5의 경우 대화형 성능 향상을 위해 RLHF를 적용한 대표적 예).

3. 토큰 예측 메커니즘

GPT 모델이 실제 텍스트를 생성할 때, 입력된 토큰(문맥)으로부터 다음 토큰 확률 분포를 계산하는 과정은 다음과 같다. 우선 입력 토큰은 임베딩 계층을 통해 고정된 차원의 실수 벡터로 변환되고, 위치 인코딩이 더해진다(Transformer 특성상 토큰 순서를 인코딩하기 위함). 이후 여러 겹의 Transformer 블록(각 블록은 Self-Attention + Feed-Forward 층)으로 전달되어 문맥이 축적된 히든 표현이 계산된다. 최종 블록의 출력벡터(히든 상태) 중 마지막 위치의 벡터 (h)를 취해, 어휘(vocabulary) 크기 만큼의 차원을 갖는 선형 변환을 적용한다. 즉, 선형 계층의 가중치 행렬 (W)와 벡터 (b)를 곱하여 로짓(logit) 벡터 (z = W h + b)를 얻는다. 마지막으로 이 로짓에 소프트맥스(softmax) 함수를 적용하여 정규화된 확률 분포를 구한다. 이 과정을 요약하면 다음과 같다:
[
p(\text{next token}\mid \text{context}) \;=\; \mathrm{softmax}(W h + b).
]
OpenAI의 기술문헌에서도 “Transformer 출력에 학습된 선형 변환과 softmax 함수를 사용하여 다음 토큰 확률을 계산”한다고 언급되어 있다 ([1706.03762] Attention Is All You Need). 이 분포에서 가장 높은 확률을 가진 토큰을 예측하거나, 확률에 따라 샘플링하여 텍스트를 순차적으로 생성해 나간다.

4. Self-Attention의 작동 원리

GPT 모델의 핵심 구성 요소인 Self-Attention은 입력 시퀀스 내의 모든 토큰 간의 상호작용을 학습한다. Self-Attention 동작은 다음과 같은 단계로 이루어진다 ([1706.03762] Attention Is All You Need): 각 입력 벡터로부터 Query((Q)), Key((K)), Value((V)) 벡터를 선형 변환을 통해 생성한다. 그런 다음 각 쿼리 (q_i)에 대해 모든 키 (k_j)와의 유사도를 계산하는데, 보통 내적(dot product)을 수행하여 (q_i \cdot k_j)를 구한다. 이 값을 ( \sqrt{d_k} ) (key 벡터 차원)의 제곱근으로 나눈 후 소프트맥스를 적용하여 i-th 토큰이 j-th 토큰에 주목할 가중치를 얻는다. 마지막으로 이 가중치를 값 (v_j)에 곱하여 값들을 가중합하면, i번째 토큰의 출력 벡터가 계산된다. 수식으로 요약하면 다음과 같다 ([1706.03762] Attention Is All You Need):
[
\text{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\tfrac{QK^\top}{\sqrt{d_k}}\bigr)V.
]
이때 중요한 점은 Scaled Dot-Product Attention을 사용한다는 것이며, 큰 차원에서 내적 값이 커지는 문제를 ( \sqrt{d_k} )로 스케일링하여 해결한다 ([1706.03762] Attention Is All You Need).

또한 GPT는 Multi-Head Attention 구조를 채택하여, 서로 다른 선형 투영을 통해 생성된 여러 쌍의 Q,K,V에 대해 병렬로 어텐션을 수행한다 ([1706.03762] Attention Is All You Need). 각 헤드(head)는 서로 다른 부분 공간(subspace)에서 어텐션을 계산하므로, 모델은 입력 내 여러 종류의 연관 관계를 동시에 학습할 수 있다. 이러한 병렬 헤드의 출력을 모두 연결(concatenate)한 후 다시 선형 변환함으로써 최종 어텐션 출력을 얻는다 ([1706.03762] Attention Is All You Need).

한편 Transformer는 순서를 내재적으로 처리하는 순환 구조가 없으므로 위치 인코딩(Position Encoding)을 사용한다. 입력 임베딩에 위치 정보를 더하여 토큰의 순서 정보를 제공하는데, 원조 Transformer에서는 차원마다 사인, 코사인 함수로 주기를 다르게 한 기저(基底) 벡터를 사용했다 ([1706.03762] Attention Is All You Need). 즉, 고정된 주기적 함수를 통해 각 위치에 대한 인코딩 벡터를 계산하여 임베딩에 합산한다 ([1706.03762] Attention Is All You Need). 이렇게 함으로써 토큰 순서를 모형이 학습할 수 있게 된다.

5. 블랙박스 해석법

대규모 GPT 모델의 내부 작동 메커니즘을 해석하려는 시도들도 활발히 연구되고 있다. 주요 접근 방식으로는 Probing Classifier, Attention 분석, Feature Attribution 등이 있다.

Probing Classifiers: 사전학습된 모델의 은닉 표현(hidden representation)에 선형 또는 단순 신경망 분류기를 학습시켜 특정 정보를 추출한다. 예를 들어, 특정 레이어의 활성화 값으로부터 품사(POS) 태그나 구문 구조, 사실관계 등을 예측하는 probe를 학습하여, 모델이 그 정보를 암묵적으로 학습했는지 검증한다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models) (Linguistic Interpretability of Transformer-based Language Models: a systematic review). 최근 연구에선 GPT-2 등의 어텐션 헤드 중 일부가 “진실성”(truthfulness) 같은 개념을 잘 포착함이 밝혀졌고, 이를 선형 분류기로 분석하기도 했다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models). Probing은 간접적 해석 방법으로, 모델이 다양한 언어 현상을 얼마나 인코딩했는지 평가하는 데 사용된다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models).
Attention 분석: Self-Attention 기제 자체를 분석하여 모델의 포커싱 패턴을 시각화한다. 예를 들어, 입력 문장의 단어 간 어텐션 가중치를 열 지도(heatmap)로 나타내어 모델이 어느 단어에 주목하는지 확인할 수 있다 (Linguistic Interpretability of Transformer-based Language Models: a systematic review). 마렉체크(Mareček) 등의 연구에서는 쌍대 그래프(bipartite graph)나 히트맵을 통해 어텐션 패턴을 시각화하였다 (Linguistic Interpretability of Transformer-based Language Models: a systematic review). 다만 어텐션 가중치가 실제 해석력을 보장하지 않는다는 비판도 있어, 이 접근법은 보조적인 탐구 수단으로 활용된다.
Feature Attribution: 개별 입력 토큰이 예측에 얼마나 기여했는지 계산하는 방법이다. 예를 들어, LIME이나 SHAP 같은 기법은 입력을 변형해가며 예측 변화량을 관찰하여 토큰 중요도를 추정하고, Gradient 기반 기법(예: Integrated Gradients)은 모델 출력에 대한 각 토큰 입력의 기여도를 그래디언트로 계산한다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models). 이들 방법은 특정 문장이나 예측 결과를 국소적으로 설명하는 데 쓰인다. 예를 들어, 어떤 문장에서 특정 단어를 제거하거나 강조했을 때 모델 출력이 어떻게 바뀌는지 분석하여 해당 단어의 영향력을 정량화할 수 있다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models).

이 밖에도 기계적 해석(mechanistic interpretability) 연구가 진행 중이다. 예를 들어, GPT-2 작은 모델의 내부 회로를 분석하여 “간접목적어 식별(IOI)”과 같은 특정 과제를 수행하는 소규모 주석 그래프(subgraph)를 발견한 사례가 있다 (From Understanding to Utilization: A Survey on Explainability for Large Language Models). 이러한 연구들은 특정 뉴런이나 헤드가 수행하는 역할을 밝혀내, 모델의 “블랙박스” 동작을 점차 가시화하려는 시도로 볼 수 있다.

참고자료: OpenAI 공식 보고서와 논문들은 GPT-계열의 아키텍처 및 성능을 상세히 기술

① GPT 계열 모델 비교

항목	GPT-2	GPT-3	GPT-3.5 (ChatGPT core)	GPT-4
최초 공개	2019	2020	2022 (추정)	2023
파라미터	1.5 B	175 B (8 크기 중 최대)	≈ 175 B (추정)	비공개 (업계 추정 > 200 B)
컨텍스트 길이	1 024 tokens (Language Models are Unsupervised Multitask Learners)	2 048 tokens	4 096 tokens (API 기본)	8 192 / 32 768 tokens (Turbo 확장) (GPT-4)
학습 데이터·규모	WebText 8 M 문서 ≈ 40 GB 텍스트 (Language Models are Unsupervised Multitask Learners)	Common Crawl + Books + Wiki 등, 300 B tokens	GPT-3 데이터 + 대화로그, RLHF 후속학습	공개·라이선스·시뮬레이션 혼합, 멀티모달 입력(텍스트+이미지)
아키텍처 특징	Transformer-decoder 48 layer	Dense + Sparse Transformer, 96 layer	GPT-3 아키텍처 + 대화특화 RLHF	멀티모달 Transformer, 예측적 스케일링 인프라
대표 성과	8개 LM 벤치마크 중 7개 SOTA (Zero-shot) ([[PDF] Language Models are Unsupervised Multitask Learners	OpenAI](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf?utm_source=chatgpt.com))	다수 NLP 과제에서 few-shot SOTA 수준	Chat 품질 대폭 향상(Bar exam 하위 10%)

② 학습·추론 파이프라인 요약

단계	핵심 내용	공식 근거
사전학습	자기회귀 LM 목표(다음 토큰 예측), 크로스엔트로피 최소화	GPT-3 논문 §2.1 – §2.3
토크나이저	BPE 변형(≈ 50 k vocab) / UTF-8 바이트 수준	GPT-2 논문 §2.2 (Language Models are Unsupervised Multitask Learners)
최적화	Adam W & Linear decay; 수 PB-days 규모 연산	GPT-3 Table 2.2 & Fig 2.2
후속 튜닝	지시어-튜닝 + RLHF (특히 GPT-3.5, GPT-4)	GPT-4 Tech Report §1 & §2
추론(생성)	Transformer 출력 → 선형 W h + b → Softmax 로 다음 토큰 확률	Transformer 논문 Eq.(1)·Fig 2, GPT 시리즈 동일 ([1706.03762] Attention Is All You Need)

③ Self-Attention & Transformer 핵심 공식

메커니즘	수식·개념	출처
Scaled Dot-Product Attention	$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\bigl(\dfrac{QK^{\top}}{\sqrt{d_k}}\bigr)V$	Vaswani et al., 2017 Eq.(1) ([1706.03762] Attention Is All You Need)
Multi-Head Attention	서로 다른 선형 투영 h 개 병렬 수행 후 concat	동일 논문 Fig 2 ([1706.03762] Attention Is All You Need)
Positional Encoding	각 토큰 위치별 $\sin,\cos$ 주기 벡터 합산	Vaswani et al., §3.5 ([1706.03762] Attention Is All You Need)

④ 블랙박스 해석(Interpretability) 기법

접근법	설명	대표 연구·사례
Probing Classifier	은닉 표현→선형 분류기로 언어·사실 정보 추출	Li et al. (2023) “Truthfulness Heads” ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models)
Attention 시각화	어텐션 가중치 Heat-map/Graph 로 토큰 간 의존 파악	Mareček & Rosa (2019) 분석 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models)
Feature Attribution	Integrated Gradients·SHAP 등으로 토큰 기여도 정량화	Modarressi et al. (2022) 정리 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models)
Mechanistic Circuit	GPT-2-small 내 IOI 서브그래프 (26 heads) 해부	Wang et al. (2022) 회로 해석 ([2401.12874] From Understanding to Utilization: A Survey on Explainability for Large Language Models)

TIP — 읽는 법
• 각 셀 아래 괄호 속 숫자는 해당 논문의 핵심 문단·표를 인용한 것입니다.
• 파라미터/컨텍스트 값은 논문·공식문서 기준이며, GPT-4 매개변수는 비공개라 추정치만 기재했습니다.

이렇게 표 형태로 정리하면 모델 간 차이, 학습 파이프라인, 내부 메커니즘, 그리고 해석 가능성 연구까지 한눈에 비교·검토할 수 있습니다.

moon.kick

@mgkick

이전 포스트