[확률과 통계] 확률변수

Kyeongmin·2024년 8월 12일
0

수학

목록 보기
27/30

본 글은 칸아카데미의 확률과 통계에 대해서 공부하고 정리한 글입니다.


1. 확률변수

확률변수는 어떠한 확률에 대한 결과를 수치로 나타내는 변수이며,
이를 다르게 표현하면 표본공간의 각 원소에 실수값을 대응시키는 함수라고 말할 수 있다.

확률 변수는 크게 이산확률변수연속확률변수 두 가지 종류로 나눌 수 있다.

1-1. 이산확률변수

이산확률변수(Discrete Random Variable)는 특정한 개수의 값만을 가질 수 있는 확률변수이다.
예를 들어, 주사위를 굴렸을 때 나오는 숫자는 6개의 값(1 ~ 6) 중 하나이므로 이산확률변수라고 할 수 있다.
이러한 변수는 개수로 셀 수 있는 값을 가지며, 각 값에 대응하는 확률을 확률질량함수(PMF, Probability Mass Function)로 나타낸다.

P(X=x)=p(x)P(X = x) = p(x)

1-2. 연속확률변수

연속확률변수(Continuous Random Variable)는 연속적인 값을 가질 수 있는 확률변수이다.
예를 들어, 특정 지역의 온도는 연속적인 범위 내의 실수 값으로 측정될 수 있으므로 연속확률변수라고 할 수 있다.
연속확률변수는 특정 값이 아닌 구간에 대한 확률을 다루고 이를 구하기 위해 적분을 사용하며,
확률밀도함수(PDF, Probability Density Function)로 나타낸다.

fX(x)=ddxFX(x)f_{_X}(x) = \frac{d}{dx}F_{_X}(x)

2. 확률변수의 통계량

확률변수에서도 마찬가지로 평균/분산 등과 같은 통계량을 구할 수 있다.

2-1. 확률변수의 평균(기댓값)

평균 또는 기댓값은 확률변수의 중심 위치를 나타내는 통계량 중 하나이다.
이산확률변수와 연속확률변수의 평균은 다음 수식을 통해 계산 할 수 있다.

이산확률변수:

E[X]=μX=i=1Nxip(xi)E[X] = \mu_{_X} = \sum_{i=1}^{N} x_i \cdot p(x_i)

연속확률변수:

E[X]=μX=xfX(x)dxE[X] = \mu_{_X} = \int_{-\infty}^{\infty} x \cdot f_{_X}(x) dx

2-2. 확률변수의 분산/표준편차

분산은 확률변수가 평균으로부터 얼마나 퍼져있는지를 나타내며,
표준편차는 분산의 제곱근을 함으로써 구할 수 있다.

분산:

Var(X)σX2=E[(XE[X])2]=E[X2](E[X])2=1Ni=1N(xiμX)2p(xi)\begin{aligned} Var(X) \sigma_{_X}^2&= E[(X - E[X])^2] = E[X^2] - (E[X])^2 \\ &= \frac{1}{N}\sum_{i=1}^{N} \big(x_i - \mu_{_X}\big)^2 \cdot p(x_i) \end{aligned}

표준편차:

σX=Var(X)\sigma_{_X} = \sqrt{Var(X)}

2-3. 확률변수 합과 차의 평균

두 확률변수 X와 Y가 존재할 때, 두개의 합과 차의 평균은 다음과 같이 구할 수 있다.

E[X+Y]=E[X]+E[Y]E[XY]=E[X]E[Y]E[X + Y] = E[X] + E[Y] \\\,\\ E[X - Y] = E[X] - E[Y]

2-4. 확률변수 합과 차의 분산/표준편차

만약 X와 Y가 독립인 확률변수라면, 두개의 합과 차의 분산은 다음과 같이 구할 수 있다.

σX+Y2=σXY2=σX2+σY2\sigma_{_{X+Y}}^2 = \sigma_{_{X-Y}}^2 = \sigma_{_X}^2 + \sigma_{_Y}^2

여기서 왜 확률변수를 더했을때와 뺐을 때의 분산이 같은걸까?
확률변수 간의 차이에 대한 분산이, 왜 기존 확률변수들의 분산을 더한 결과와 같은걸까?
아래 수식을 보면 그 이유에 대해 알 수 있다.

σXY2=σX+(Y)2=σX2+σY2σY2=E[(YE[Y])2]=E[(1)2(Y+E[Y])2]=E[(Y+E[Y])2]=E[(YE[Y])2]  =  σY2\begin{aligned} \sigma_{_{X-Y}}^2 &= \sigma_{_{X+(-Y)}}^2 = \sigma_{_{X}}^2 + \sigma_{_{-Y}}^2 \\\,\\ \sigma_{_{-Y}}^2 &= E[(-Y - E[-Y])^2] \\ &= E[(-1)^2(Y + E[-Y])^2] \\ &= E[(Y + E[-Y])^2] \\ &= E[(Y - E[Y])^2] \;=\; \sigma_{_{Y}}^2 \end{aligned}

또한 표준편차는 위의 분산에 제곱근을 함으로써 구할 수도 있고, 아래와 같이 구할 수도 있다.
분산과 마찬가지로 확률변수를 더하거나 뺐을 때 모두 표준편차를 구하는 방식은 동일하다.

σX+Y=σXY=σX2+σY2\sigma_{_{X+Y}} = \sigma_{_{X-Y}} = \sqrt{\sigma_{_X}^2 + \sigma_{_Y}^2}

3. 베르누이 시행

이는 성공과 실패 두 가지 결과만을 가지는 단일 실험 또는 시행을 말한다.
베르누이 시행은 아래에서 다루고 있는 이항확률변수와 이항분포에서도 활용된다.

3-1. 베르누이 시행의 조건

베르누이 시행은 다음의 조건을 갖추어야 하고,
베르누이 시행의 예시로는 동전 던지기, 주사위에서 특정 눈이 나오는 경우 등이 있다.

  1. 결과의 유형이 2가지이다.
    : 각 시행에서는 2가지 결과 중 1가지 경우만 발생하며, 보통 성공과 실패로 정의된다.
    (ex. 동전 던지기에서 앞면이 나오는 경우를 성공, 뒷면이 나오는 경우를 실패로 정의할 수 있다.)

  2. 각 시행은 모두 독립적이다.
    : 베르누이 시행은 독립적이다. 다시 말해 각 시행의 결과는 다른 시행의 결과에 영향을 받지 않는다.
    (ex. 여러 번 동전을 던질 때, 이전의 결과가 이후의 결과에 영향을 주지 않는다.)

  3. 각 시행의 성공 확률은 동일해야 한다.
    : 모든 베르누이 시행에서 성공할 확률 (p)는 동일하다. 즉, 성공할 확률은 매 시행마다 변하지 않는다.

3-2. 베르누이 시행의 확률분포

베르누이 시행에서 발생하는 확률변수 (X)는 성공을 1, 실패를 0으로 나타내는 이산확률변수이다.
베르누이 시행의 확률분포는 다음과 같이 나타낼 수 있다:

P(X=k)={pif k=1(성공할 확률)1pif k=0(실패할 확률)P(X=k) = \begin{cases} p & \text{if } k=1 \quad\text{(성공할 확률)}\\ 1-p & \text{if } k=0 \quad\text{(실패할 확률)} \end{cases}

3-3. 베르누이 분포의 통계량

베르누이 분포의 주요 통계량은 다음과 같다:

  • 평균 : E(X)=pE(X) = p
  • 분산 : Var(X)=p(1p)Var(X) = p(1-p)
  • 표준편차 : σ=p(1p)\sigma = \sqrt{p(1-p)}

4. 이항확률변수

이항확률변수(Binomial Random Variable)는
고정된 횟수의 독립적인 베르누이 시행에서 특정 횟수에서의 성공 횟수를 나타내는 확률변수이다.
예를 들어, 10번의 동전 던지기에서 앞면이 나오는 횟수는 이항확률변수로 표현할 수 있다.

4-1. 이항확률분포

이항확률분포는 이항확률변수가 따르는 확률분포이며,
nn번의 독립적인 시행에서 각 시행의 성공 확률이 pp일 때, 확률질량함수는 다음과 같다

P(X=k)=(nk)pk(1p)nk,(k=0,  1,  2,  ,  n)P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad,\quad (k=0,\;1,\;2,\;\ldots,\;n)

※ 여기서 (nk)\binom{n}{k}는 이항계수로, nn개 중 kk개를 선택하는 조합의 수를 나타낸다.

[ 문제 ] 동전을 5번 던질 때, 앞면이 3번 나올 확률을 구해보자.

이 경우 n=5n=5, p=0.5p=0.5, k=3k=3이다.

P(X=3)  =  (53)(0.5)3(0.5)53  =  10×0.125×0.25  =  0.3125P(X=3) \;=\; \binom{5}{3} (0.5)^3 (0.5)^{5-3} \;=\; 10 \times 0.125 \times 0.25 \;=\; 0.3125

따라서 동전을 5번 던졌을 때 앞면이 정확히 3번 나올 확률은 약 31.25% 이다.

4-2. 이항확률분포의 통계량

이항확률변수 XB(n,p)X \sim B(n,p)의 주요 통계량은 다음과 같다:

  • 평균 : E(X)=npE(X) = np
  • 분산 : Var(X)=np(1p)Var(X) = np(1-p)
  • 표준편차 : σ=np(1p)\sigma = \sqrt{np(1-p)}

[ 문제 ] 동전을 100번 던질 때, 앞면이 나오는 횟수의 평균과 표준편차를 구해보자.

이 경우 n=100,  p=0.5n=100,\;p=0.5 이다.

평균 : E(X)=100×0.5=50E(X) = 100 \times 0.5 = 50
표준편차 : σ=100×0.5×0.5=5\sigma = \sqrt{100 \times 0.5 \times 0.5} = 5

따라서 평균적으로 50번의 앞면이 나오며, 표준편차는 5 이다.

5. 기하확률변수

기하확률변수는(Geometric Random Variable)는
첫 번째 성공을 얻기까지 필요한 독립적인 베르누이 시행의 횟수를 나타내는 확률변수다.
베르누이 시행의 조건과 같으면서 전체 시행 횟수가 고정되어야 한다는 조건이 있다.

5-1. 기하확률분포

기하확률분포의 확률질량함수는 다음과 같다

1) k = 1번째 성공까지의 시행 횟수

P(X=k)  =  (1p)k1p,(k=1,  2,  3,  )P(X=k) \;=\; (1-p)^{k-1}p \quad,\quad (k=1, \;2,\; 3,\;\ldots)

2) k = 1번째 성공 이전까지의 시행 횟수

P(X=k)  =  (1p)kp,(k=0,  1,  2,  )P(X=k) \;=\; (1-p)^{k}p \quad,\quad (k=0, \;1,\; 2,\;\ldots)

[ 문제 ] 6면 주사위가 있을 때, 4번째 시도에서 처음으로 6이 나올 확률을 구해보자.

이 경우 주사위에서 6이 나오는 경우를 성공이라 보고, 이때의 확률은 p=1/6p=1/6이다.

P(X=4)  =  (116)41×16  =  (56)3×16    0.0965P(X=4) \;=\; (1-\frac{1}{6})^{4-1} \times \frac{1}{6} \;=\; (\frac{5}{6})^3 \times \frac{1}{6} \;\approx\; 0.0965

따라서 약 9.65% 의 확률로 4번째 시도에서 처음 6이 나온다.

5-2. 기하확률분포의 통계량

기하확률변수 XGeo(p)X \sim Geo(p)의 주요 통계량은 다음과 같다:
(아래는 X = 1번째 성공까지의 시행 횟수를 말하는 경우의 통계량이다.)

  • 평균: E(X)=1pE(X) = \frac{1}{p}
  • 분산: Var(X)=1pp2Var(X) = \frac{1-p}{p^2}
  • 표준편차: σ=1pp\sigma = \frac{\sqrt{1-p}}{p}

[ 예제 ] 앞서 주사위 예제에서 6이 나올 때까지 평균적으로 몇 번의 시도가 필요한지 계산해보자.

평균: E(X)  =  1p  =  11/6  =  6E(X) \;=\; \frac{1}{p} \;=\; \frac{1}{1/6} \;=\; 6

따라서 평균적으로 6번의 시도가 필요하다.

profile
개발자가 되고 싶은 공장장이🛠

0개의 댓글