본 글은 칸아카데미의 확률과 통계 에 대해서 공부하고 정리한 글입니다.
1. 확률변수
확률변수는 어떠한 확률에 대한 결과를 수치로 나타내는 변수이며,
이를 다르게 표현하면 표본공간의 각 원소에 실수값을 대응시키는 함수라고 말할 수 있다.
확률 변수는 크게 이산확률변수 와 연속확률변수 두 가지 종류로 나눌 수 있다.
1-1. 이산확률변수
이산확률변수(Discrete Random Variable) 는 특정한 개수의 값만을 가질 수 있는 확률변수이다.
예를 들어, 주사위를 굴렸을 때 나오는 숫자는 6개의 값(1 ~ 6) 중 하나이므로 이산확률변수라고 할 수 있다.
이러한 변수는 개수로 셀 수 있는 값을 가지며, 각 값에 대응하는 확률을 확률질량함수(PMF, Probability Mass Function) 로 나타낸다.
P ( X = x ) = p ( x ) P(X = x) = p(x) P ( X = x ) = p ( x )
1-2. 연속확률변수
연속확률변수(Continuous Random Variable) 는 연속적인 값을 가질 수 있는 확률변수이다.
예를 들어, 특정 지역의 온도는 연속적인 범위 내의 실수 값으로 측정될 수 있으므로 연속확률변수라고 할 수 있다.
연속확률변수는 특정 값이 아닌 구간에 대한 확률을 다루고 이를 구하기 위해 적분을 사용하며,
확률밀도함수(PDF, Probability Density Function) 로 나타낸다.
f X ( x ) = d d x F X ( x ) f_{_X}(x) = \frac{d}{dx}F_{_X}(x) f X ( x ) = d x d F X ( x )
2. 확률변수의 통계량
확률변수에서도 마찬가지로 평균/분산 등과 같은 통계량을 구할 수 있다.
2-1. 확률변수의 평균(기댓값)
평균 또는 기댓값은 확률변수의 중심 위치를 나타내는 통계량 중 하나이다.
이산확률변수와 연속확률변수의 평균은 다음 수식을 통해 계산 할 수 있다.
이산확률변수:
E [ X ] = μ X = ∑ i = 1 N x i ⋅ p ( x i ) E[X] = \mu_{_X} = \sum_{i=1}^{N} x_i \cdot p(x_i) E [ X ] = μ X = i = 1 ∑ N x i ⋅ p ( x i )
연속확률변수:
E [ X ] = μ X = ∫ − ∞ ∞ x ⋅ f X ( x ) d x E[X] = \mu_{_X} = \int_{-\infty}^{\infty} x \cdot f_{_X}(x) dx E [ X ] = μ X = ∫ − ∞ ∞ x ⋅ f X ( x ) d x
2-2. 확률변수의 분산/표준편차
분산은 확률변수가 평균으로부터 얼마나 퍼져있는지를 나타내며,
표준편차는 분산의 제곱근을 함으로써 구할 수 있다.
분산:
V a r ( X ) σ X 2 = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 = 1 N ∑ i = 1 N ( x i − μ X ) 2 ⋅ p ( x i ) \begin{aligned} Var(X) \sigma_{_X}^2&= E[(X - E[X])^2] = E[X^2] - (E[X])^2 \\ &= \frac{1}{N}\sum_{i=1}^{N} \big(x_i - \mu_{_X}\big)^2 \cdot p(x_i) \end{aligned} V a r ( X ) σ X 2 = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 = N 1 i = 1 ∑ N ( x i − μ X ) 2 ⋅ p ( x i )
표준편차:
σ X = V a r ( X ) \sigma_{_X} = \sqrt{Var(X)} σ X = V a r ( X )
2-3. 확률변수 합과 차의 평균
두 확률변수 X와 Y가 존재할 때, 두개의 합과 차의 평균은 다음과 같이 구할 수 있다.
E [ X + Y ] = E [ X ] + E [ Y ] E [ X − Y ] = E [ X ] − E [ Y ] E[X + Y] = E[X] + E[Y] \\\,\\ E[X - Y] = E[X] - E[Y] E [ X + Y ] = E [ X ] + E [ Y ] E [ X − Y ] = E [ X ] − E [ Y ]
2-4. 확률변수 합과 차의 분산/표준편차
만약 X와 Y가 독립인 확률변수라면, 두개의 합과 차의 분산은 다음과 같이 구할 수 있다.
σ X + Y 2 = σ X − Y 2 = σ X 2 + σ Y 2 \sigma_{_{X+Y}}^2 = \sigma_{_{X-Y}}^2 = \sigma_{_X}^2 + \sigma_{_Y}^2 σ X + Y 2 = σ X − Y 2 = σ X 2 + σ Y 2
여기서 왜 확률변수를 더했을때와 뺐을 때의 분산이 같은걸까?
확률변수 간의 차이에 대한 분산이, 왜 기존 확률변수들의 분산을 더한 결과와 같은걸까?
아래 수식을 보면 그 이유에 대해 알 수 있다.
σ X − Y 2 = σ X + ( − Y ) 2 = σ X 2 + σ − Y 2 σ − Y 2 = E [ ( − Y − E [ − Y ] ) 2 ] = E [ ( − 1 ) 2 ( Y + E [ − Y ] ) 2 ] = E [ ( Y + E [ − Y ] ) 2 ] = E [ ( Y − E [ Y ] ) 2 ] = σ Y 2 \begin{aligned} \sigma_{_{X-Y}}^2 &= \sigma_{_{X+(-Y)}}^2 = \sigma_{_{X}}^2 + \sigma_{_{-Y}}^2 \\\,\\ \sigma_{_{-Y}}^2 &= E[(-Y - E[-Y])^2] \\ &= E[(-1)^2(Y + E[-Y])^2] \\ &= E[(Y + E[-Y])^2] \\ &= E[(Y - E[Y])^2] \;=\; \sigma_{_{Y}}^2 \end{aligned} σ X − Y 2 σ − Y 2 = σ X + ( − Y ) 2 = σ X 2 + σ − Y 2 = E [ ( − Y − E [ − Y ] ) 2 ] = E [ ( − 1 ) 2 ( Y + E [ − Y ] ) 2 ] = E [ ( Y + E [ − Y ] ) 2 ] = E [ ( Y − E [ Y ] ) 2 ] = σ Y 2
또한 표준편차는 위의 분산에 제곱근을 함으로써 구할 수도 있고, 아래와 같이 구할 수도 있다.
분산과 마찬가지로 확률변수를 더하거나 뺐을 때 모두 표준편차를 구하는 방식은 동일하다.
σ X + Y = σ X − Y = σ X 2 + σ Y 2 \sigma_{_{X+Y}} = \sigma_{_{X-Y}} = \sqrt{\sigma_{_X}^2 + \sigma_{_Y}^2} σ X + Y = σ X − Y = σ X 2 + σ Y 2
3. 베르누이 시행
이는 성공과 실패 두 가지 결과만을 가지는 단일 실험 또는 시행을 말한다.
베르누이 시행은 아래에서 다루고 있는 이항확률변수와 이항분포에서도 활용된다.
3-1. 베르누이 시행의 조건
베르누이 시행은 다음의 조건을 갖추어야 하고,
베르누이 시행의 예시로는 동전 던지기, 주사위에서 특정 눈이 나오는 경우 등이 있다.
결과의 유형이 2가지이다.
: 각 시행에서는 2가지 결과 중 1가지 경우만 발생하며, 보통 성공과 실패로 정의된다.
(ex. 동전 던지기에서 앞면이 나오는 경우를 성공, 뒷면이 나오는 경우를 실패로 정의할 수 있다.)
각 시행은 모두 독립적이다.
: 베르누이 시행은 독립적이다. 다시 말해 각 시행의 결과는 다른 시행의 결과에 영향을 받지 않는다.
(ex. 여러 번 동전을 던질 때, 이전의 결과가 이후의 결과에 영향을 주지 않는다.)
각 시행의 성공 확률은 동일해야 한다.
: 모든 베르누이 시행에서 성공할 확률 (p)는 동일하다. 즉, 성공할 확률은 매 시행마다 변하지 않는다.
3-2. 베르누이 시행의 확률분포
베르누이 시행에서 발생하는 확률변수 (X)는 성공을 1, 실패를 0으로 나타내는 이산확률변수이다.
베르누이 시행의 확률분포는 다음과 같이 나타낼 수 있다:
P ( X = k ) = { p if k = 1 (성공할 확률) 1 − p if k = 0 (실패할 확률) P(X=k) = \begin{cases} p & \text{if } k=1 \quad\text{(성공할 확률)}\\ 1-p & \text{if } k=0 \quad\text{(실패할 확률)} \end{cases} P ( X = k ) = { p 1 − p if k = 1 ( 성공할 확률 ) if k = 0 ( 실패할 확률 )
3-3. 베르누이 분포의 통계량
베르누이 분포의 주요 통계량은 다음과 같다:
평균 : E ( X ) = p E(X) = p E ( X ) = p
분산 : V a r ( X ) = p ( 1 − p ) Var(X) = p(1-p) V a r ( X ) = p ( 1 − p )
표준편차 : σ = p ( 1 − p ) \sigma = \sqrt{p(1-p)} σ = p ( 1 − p )
4. 이항확률변수
이항확률변수(Binomial Random Variable)는
고정된 횟수의 독립적인 베르누이 시행에서 특정 횟수에서의 성공 횟수를 나타내는 확률변수이다.
예를 들어, 10번의 동전 던지기에서 앞면이 나오는 횟수는 이항확률변수로 표현할 수 있다.
4-1. 이항확률분포
이항확률분포는 이항확률변수가 따르는 확률분포이며,
n n n 번의 독립적인 시행에서 각 시행의 성공 확률이 p p p 일 때, 확률질량함수는 다음과 같다
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , ( k = 0 , 1 , 2 , … , n ) P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad,\quad (k=0,\;1,\;2,\;\ldots,\;n) P ( X = k ) = ( k n ) p k ( 1 − p ) n − k , ( k = 0 , 1 , 2 , … , n )
※ 여기서 ( n k ) \binom{n}{k} ( k n ) 는 이항계수로, n n n 개 중 k k k 개를 선택하는 조합의 수를 나타낸다.
[ 문제 ] 동전을 5번 던질 때, 앞면이 3번 나올 확률을 구해보자.
이 경우 n = 5 n=5 n = 5 , p = 0.5 p=0.5 p = 0 . 5 , k = 3 k=3 k = 3 이다.
P ( X = 3 ) = ( 5 3 ) ( 0.5 ) 3 ( 0.5 ) 5 − 3 = 10 × 0.125 × 0.25 = 0.3125 P(X=3) \;=\; \binom{5}{3} (0.5)^3 (0.5)^{5-3} \;=\; 10 \times 0.125 \times 0.25 \;=\; 0.3125 P ( X = 3 ) = ( 3 5 ) ( 0 . 5 ) 3 ( 0 . 5 ) 5 − 3 = 1 0 × 0 . 1 2 5 × 0 . 2 5 = 0 . 3 1 2 5
따라서 동전을 5번 던졌을 때 앞면이 정확히 3번 나올 확률은 약 31.25% 이다.
4-2. 이항확률분포의 통계량
이항확률변수 X ∼ B ( n , p ) X \sim B(n,p) X ∼ B ( n , p ) 의 주요 통계량은 다음과 같다:
평균 : E ( X ) = n p E(X) = np E ( X ) = n p
분산 : V a r ( X ) = n p ( 1 − p ) Var(X) = np(1-p) V a r ( X ) = n p ( 1 − p )
표준편차 : σ = n p ( 1 − p ) \sigma = \sqrt{np(1-p)} σ = n p ( 1 − p )
[ 문제 ] 동전을 100번 던질 때, 앞면이 나오는 횟수의 평균과 표준편차를 구해보자.
이 경우 n = 100 , p = 0.5 n=100,\;p=0.5 n = 1 0 0 , p = 0 . 5 이다.
평균 : E ( X ) = 100 × 0.5 = 50 E(X) = 100 \times 0.5 = 50 E ( X ) = 1 0 0 × 0 . 5 = 5 0
표준편차 : σ = 100 × 0.5 × 0.5 = 5 \sigma = \sqrt{100 \times 0.5 \times 0.5} = 5 σ = 1 0 0 × 0 . 5 × 0 . 5 = 5
따라서 평균적으로 50번 의 앞면이 나오며, 표준편차는 5 이다.
5. 기하확률변수
기하확률변수는(Geometric Random Variable)는
첫 번째 성공을 얻기까지 필요한 독립적인 베르누이 시행의 횟수를 나타내는 확률변수다.
베르누이 시행의 조건과 같으면서 전체 시행 횟수가 고정되어야 한다는 조건이 있다.
5-1. 기하확률분포
기하확률분포의 확률질량함수는 다음과 같다
1) k = 1번째 성공까지의 시행 횟수
P ( X = k ) = ( 1 − p ) k − 1 p , ( k = 1 , 2 , 3 , … ) P(X=k) \;=\; (1-p)^{k-1}p \quad,\quad (k=1, \;2,\; 3,\;\ldots) P ( X = k ) = ( 1 − p ) k − 1 p , ( k = 1 , 2 , 3 , … )
2) k = 1번째 성공 이전까지의 시행 횟수
P ( X = k ) = ( 1 − p ) k p , ( k = 0 , 1 , 2 , … ) P(X=k) \;=\; (1-p)^{k}p \quad,\quad (k=0, \;1,\; 2,\;\ldots) P ( X = k ) = ( 1 − p ) k p , ( k = 0 , 1 , 2 , … )
[ 문제 ] 6면 주사위가 있을 때, 4번째 시도에서 처음으로 6이 나올 확률을 구해보자.
이 경우 주사위에서 6이 나오는 경우를 성공이라 보고, 이때의 확률은 p = 1 / 6 p=1/6 p = 1 / 6 이다.
P ( X = 4 ) = ( 1 − 1 6 ) 4 − 1 × 1 6 = ( 5 6 ) 3 × 1 6 ≈ 0.0965 P(X=4) \;=\; (1-\frac{1}{6})^{4-1} \times \frac{1}{6} \;=\; (\frac{5}{6})^3 \times \frac{1}{6} \;\approx\; 0.0965 P ( X = 4 ) = ( 1 − 6 1 ) 4 − 1 × 6 1 = ( 6 5 ) 3 × 6 1 ≈ 0 . 0 9 6 5
따라서 약 9.65% 의 확률 로 4번째 시도에서 처음 6이 나온다.
5-2. 기하확률분포의 통계량
기하확률변수 X ∼ G e o ( p ) X \sim Geo(p) X ∼ G e o ( p ) 의 주요 통계량은 다음과 같다:
(아래는 X = 1번째 성공까지의 시행 횟수를 말하는 경우의 통계량이다.)
평균: E ( X ) = 1 p E(X) = \frac{1}{p} E ( X ) = p 1
분산: V a r ( X ) = 1 − p p 2 Var(X) = \frac{1-p}{p^2} V a r ( X ) = p 2 1 − p
표준편차: σ = 1 − p p \sigma = \frac{\sqrt{1-p}}{p} σ = p 1 − p
[ 예제 ] 앞서 주사위 예제에서 6이 나올 때까지 평균적으로 몇 번의 시도가 필요한지 계산해보자.
평균: E ( X ) = 1 p = 1 1 / 6 = 6 E(X) \;=\; \frac{1}{p} \;=\; \frac{1}{1/6} \;=\; 6 E ( X ) = p 1 = 1 / 6 1 = 6
따라서 평균적으로 6번 의 시도가 필요하다.