자연어의 본질, 조건부 확률로 풀어보기

Bean·2025년 7월 6일

인공지능

목록 보기

76/123

언어는 왜 ‘조건부 확률’로 접근해야 할까?

언어는 단순한 단어 모음이 아닙니다.
“단어1 → 단어2 → 단어3…”처럼 순서를 갖는 구조적 데이터죠.
따라서 언어를 이해하거나 생성할 때, “다음에 어떤 단어가 올까?”는 이전 단어들에 달려 있습니다.
이런 상황에서 필요한 것이 바로 조건부 확률(Conditional Probability)입니다.

예를 들어:

“I am going to the” 다음에는 “store”가 올 가능성이 “banana”보다 훨씬 높죠.

이를 확률로 표현하면:

p(\text{store} \mid \text{I am going to the}) \gg p(\text{banana} \mid \text{I am going to the})

언어 모델은 이렇게 문장을 계산합니다

언어 모델은 전체 문장의 확률을 직접 계산하지 않습니다.
대신, 체인룰(chain rule)이라는 확률 기법을 사용해 문장을 구성하는 각 단어의 조건부 확률을 차례대로 곱합니다.

예를 들어, 문장 “I am going to the store”는 다음처럼 계산됩니다:

p(x_1, x_2, \dots, x_6) = p(x_1) \times p(x_2 \mid x_1) \times p(x_3 \mid x_1, x_2) \times \dots \times p(x_6 \mid x_1, \dots, x_5)

즉, 각 단어가 이전 단어들에 조건부로 등장할 확률을 예측하는 것이 모델의 핵심입니다.

간단한 예제로 살펴보기

문장: “The cat sat.”

첫 단어 "The"의 확률:
→ p("The") = 0.1
다음 단어 "cat"의 확률 (앞 단어 조건):
→ p("cat" | "The") = 0.6
마지막 단어 "sat"의 확률 (앞 두 단어 조건):
→ p("sat" | "The cat") = 0.8

전체 문장의 확률은 다음과 같이 계산됩니다:

p(\text{"The cat sat"}) = 0.1 \times 0.6 \times 0.8 = 0.048

이런 식으로 언어 모델은 단어별 조건부 확률을 예측하고 곱해서 문장의 자연스러움을 계산합니다.

조건부 확률이 가능하게 하는 것들

다음 단어 예측
→ 주어진 문맥에서 가장 자연스러운 다음 단어를 제시할 수 있습니다.

문장 생성
→ 첫 단어에서 시작해 조건부 확률을 기반으로 단어를 하나씩 샘플링해 문장을 만듭니다.

문맥 이해
→ 특정 단어가 등장할 확률을 계산해, 그 단어가 해당 문맥에서 어울리는지 판단할 수 있습니다.

결론: GPT의 핵심, 조건부 확률

GPT 같은 언어 모델은 단순히 문장을 암기하는 것이 아니라,
“앞 단어들을 보고 다음 단어가 등장할 확률”을 계산하는 구조를 학습합니다.

이 조건부 확률 기반 구조 덕분에,

문장 생성
문맥 이해
텍스트 자동 완성

같은 강력한 기능들이 가능해지는 것이죠.

Bean

AI developer

이전 포스트

GPT는 왜 멀티태스크처럼 동작할까? — ‘출력 통일성’에 숨겨진 비밀

다음 포스트