[GenAI] 생성형AI 기초(1)

Seoyen·2025년 10월 10일

Generative_AI

목록 보기

1/1

생성형 AI를 알아보기 전, 기초가 되는 확률 용어와 개념부터 알아보고 넘어가자.

Random Variable (확률 변수)

확률 실험을 했을 때 발생할 수 있는 결과를 실수값으로 바꿔주는 함수이다.
예를 들어, 동전 던지기 실험에서
앞면을 1, 뒷면을 0으로 대응시키는 것이 확률 변수입니다.
이런 식으로 qualitative events를 quantitative 수치로 바꿔주는 함수라고 할 수 있다.

Discrete vs Continuous Random Variable (이산 확률 변수 vs 연속 확률 변수)

Discrete Random Variable: 셀 수 있는 변수 (동전 던지기, 주사위 던지기)
Continuous Random Variable: 어떤 구간 내의 모든 실수 값으로 이루어진 변수 (키, noise)
Support: 확률 변수 값의 가능한 값의 도메인

Probability Distribution

확률 실험을 했을 때 어떤 결과가 발생한 확률을 계산하는 함수이다.
그림에서 Probability Distribution 그래프 아래의 면적이 발생할 확률이다.

출처: Wikepedia

Probability mass function (PMF)

x라는 확률 변수가 이산 확률 변수일 때, PMF는 $f(x) = P(X=x), x \in S$ 라고 표현할 수 있다.
이때,

$0 \leq f(x)$
$\sum f(x) = 1$

Bernoulli distribution

베르누이 분포란 어떤 확률 변수가 정확히 두 개의 결과만 가능한 경우의 확률 분포를 뜻한다.
success(확률 변수: 1), failure(확률 변수: 0) 이 두 가지 경우만 가능한 확률 실험의 확률 분포가 베르누이 분포다.

P(X = k \mid n, p) = \binom{n}{k} p^k (1 - p)^{n - k}

여기서 $n$ 은 베르누이 시행 횟수, $k$ 는 성공한 횟수, $p$ 는 한 번의 시행에서 성공할 확률을 의미한다.
예를 들어, 동전 던지기에서 앞면이 나오면 성공이라고 할 때,

동전을 10번 던지면 $n$ = 10
동전을 10번 던졌을 때 앞면이 3번 나올 확률을 알고 싶으면 $k$ = 3
동전을 던져 앞면이 나올 확률이 0.5면 $p$ = 0.5
$n$ 번 중에서 $k$ 번 성공하는 경우의 수 (조합)은 $\binom{n}{k}$ = $\binom{10}{3}$
참고: $\binom{n}{k} = \frac{n!}{k!(n - k)!}$

Probability density function (PDF)

x라는 확률 변수가 연속 확률 변수일 때, PDF( $p(x)$ )의 면적이 확률값을 나타낸다.
PDF는 어떤 특정한 점 $x$ 에서의 "확률 밀도"를 나타내는 함수이다. 그러므로, $p(x)$ 자체가 확률이 아니다!
대신 x의 어떤 구간에서 확률을 알고 싶을 때 PDF를 구간에 대해 적분해 구할 수 있다.

0 \leq p(x), \quad \int p(x)\,dx = 1

출처: Wikepedia

여기서 회색 면적을 $F(x)$ 라고 하면 ,

F(x) = \int_{a}^{b} p(x) \, dx

\frac{dF}{dx} = p(x)

x가 a부터 b까지의 구간에서의 확률을 p(x)의 면적을 통해 구할 수 있다.

Cumulative distribution function (CDF)

누적 분포 함수란 확률 변수 $X$ 가 어떤 값 $x$ 이하가 될 확률을 나타내는 함수이다.

F(x) = P(X \leq x)

즉, $X$ 가 $x$ 보다 작거나 같은 값을 가질 확률을 누적해서 보여준다.

CDF의 특징은 다음과 같다
1. $F(x)$ 는 항상 0에서 1 사이 값을 가진다.
2. $x$ 가 작을 때는 거의 0에 가깝고, $x$ 가 커질수록 1에 가까워진다. $F(-\infty) = 0$ , $F(\infty) = 1$
3. 오른쪽으로 갈수록 증가하는 비감소 함수(non-decreasing function)이다.
4. 이산, 연속 확률 변수에서 모두 가능하고, 모든 확률의 합이 1이 아니다.