조건부 확률 분포 설명

Bean·2025년 4월 7일

수학

목록 보기

3/13

조건부 확률 분포는 어떤 사건이나 변수가 주어졌을 때, 다른 사건이 일어날 확률이 어떻게 분포되는지를 나타냅니다. 인공지능 논문을 읽다보면 수식에서 조건부 확률 분포 표현이 많다보니, 해당 포스트에 개념을 정리했습니다.

조건부 확률 $P(A \mid B)$ 는 “B가 일어났다는 조건 하에 A가 일어날 확률”을 의미합니다.

공식은 다음과 같습니다:

$P(A \mid B) = \frac{P(A, B)}{P(B)} \quad \text{(단, } P(B) > 0 \text{)}$

확률 분포는 “가능한 모든 값에 대한 확률을 나열한 것”이니까, 조건부 확률 분포는 다음과 같이 됩니다:

예를 들어 두 확률 변수 $X$ , $Y$ 가 있을 때,

$p(x \mid y) \text{ 는 } Y = y \text{라는 조건 하에서 } X \text{가 어떤 값을 가질 확률 분포}$

즉, $Y = y$ 일 때 $X$ 의 값에 따라 확률이 어떻게 달라지는지를 보여주는 분포입니다.

학생들의 수학 점수 $X$ 와 성별 $Y$ 가 있다고 해봅시다.

즉, 성별이라는 조건이 주어졌을 때의 점수 분포가 조건부 확률 분포입니다.

Naive Bayes: $p(\text{label} \mid \text{features})$
VAE: $p(x \mid z)$
→ 잠재변수 $z$ 가 주어졌을 때 관측값 $x$ 의 분포 (즉, 하나의 $z$ 에서 확률적으로 여러가지 $x$ 가 생성됩니다.)

수식:

\theta^* = \arg\max_{\theta} p(\text{데이터} \mid \theta)

이 표현은 최대우도추정(MLE)을 나타냅니다.

$\argmax$ 는 어떤 값을 넣었을 때 함수의 출력이 최대가 되는 인풋을 찾는다는 뜻입니다.
예시:

\arg\max_{x} f(x)

→ 함수 $f(x)$ 가 최대가 되는 $x$ 값을 구하는 것!

\theta^* = \arg\max_{\theta} p(\text{데이터} \mid \theta)

→ "데이터가 주어졌을 때, 그 데이터를 가장 잘 설명해주는 모델 파라미터 $\theta$ 를 찾자"
→ 즉, 학습을 통해 최고의 모델 파라미터 $\theta$ 를 찾는 과정입니다.

여기서 데이터는 보통 다음을 의미합니다:

모델의 예측 확률:

p(y \mid x; \theta)

→ 모델이 $x$ 를 보고 $y$ 일 확률을 얼마나 높게 예측하는지를 의미합니다.

학습의 목표는 이 확률이 커지도록,
즉 우도(likelihood)를 최대화하도록 $\theta$ 를 조정하는 것입니다.