임시

손윤재·2024년 2월 4일

확률분포

Probability Distribution
확률변수 $X$ 가 갖는 값과 $X$ 가 이 값을 가질 확률의 대응 관계를 $X$ 의 확률분포라 한다.
확률변수 $X$ 가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수이다.

<이산형 확률분포>

🔰 이산형균등분포

🔰 베르누이분포

🔰 이항분포

Binomial Distribution
연속적인 베르누이 시행을 거쳐 나타나는 확률 분포이다.
베르누이 시행(Bernoulli trial)은 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 의미한다.
한 번의 시행에서 사건 $A$ 가 일어날 확률이 $p$ 로 일정할 때, $n$ 번의 독립시행에서 사건 $A$ 가 일어나는 횟수를 $X$ 라 하면 확률변수 $X$ 가 가질 수 있는 값은 $0,~1,~2,~\cdots,~n$ 이며, 그 확률질량함수는 다음과 같다.

$~~~~~ P(X=x)= {_nC_x}p^xq^{n-x}~~~(x=1,2,\cdots,n,~~q=1-p)$
- $_nC_x$ 는 $n$ 번 시행에서 사건 $A$ 가 $x$ 번 일어나는 경우의 수이다.
- $p^xq^{n-x}$ 은 각 경우의 확률이다.
- 동일한 시행을 반복하는 경우에 각 시행에서 일어나는 사건이 서로 독립일 때, 이것을 독립시행이라고 한다.
서로 독립인 베르누이 시행을 $n$ 번 반복해서 실행했을 때, 성공한 횟수 $X$ 의 확률분포를 이항분포, $\color{blue}B(n, p)$ 라 한다. $~~\Rightarrow X \thicksim B(n,~p)$
ex.
- 완치율이 80%인 약을 100명의 환자에게 투약했을 때 완치되는 환자의 수를 확률변수 $X$ 라 하면 $X$ 는 이항분포 $B(100, 0.8)$ 을 따르고 $X$ 의 확률질량함수는
  $~~~~~ P(X=x) ~=~ _{100}C_x(0.8)^x(0.2)^{100-x}~~(x=0,1,2,\cdots,100)$
- 축구선수의 패널티킥 성공률이 80%일 때, 10번의 기회에서 성공 횟수와 그 확률을 구하면
  $~~~~~ P(x) ~=~ \dbinom{10}{x}(0.8)^x(0.2)^{10-x}~~(x=0,1,2,\cdots,10)$
이항분포의 기대값(평균), 분산, 표준편차

확률변수 $X$ 가 이항분포 $B(n,~p)$ 를 따를 때, $X$ 의 평균, 분산 표준편차는
( 단, $~q=1-p$ )
- $\boxed{E(X)=np}$
  - 증명
    $E(X)= \sum _{r=0}^n r \cdot {_nC_r}p^rq^{n-r}~,~~(q=1-p)$
    $~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n r \cdot \cfrac{n!}{r!(n-r)!}~p^rq^{n-r}$
    $~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n r \cdot \cfrac{n\cdot(n-1)!}{r\cdot(r-1)!(n-r)!}~p\cdot p^{r-1}q^{n-r}$
    $~~~~~~~~~~~ = \displaystyle np\sum _{r=1}^n \cfrac{(n-1)!}{(r-1)!(n-r)!}~p^{r-1}q^{(n-1)-(r-1)}$
    $~~~~~~~~~~~ = \displaystyle np \underbrace{~\sum _{r=1}^n {_{n-1}C_{r-1}}~p^{r-1}q^{n-r}~}_{\text{이항정리}}~ =~np(p+q)^{n-1} ~=~ np$
- $\boxed{V(X) = npq = np(1-p)}$
  - 증명
    $E(X^2)= \sum _{r=0}^n ~r^2 \cdot {_nC_r}p^rq^{n-r},~~(q=1-p)$
    $~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~(r^2-r+r) \cdot {_{n}C_{r}}~p^{r}q^{n-r}$
    $~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~r(r-1)\cdot {_{n}C_{r}}~p^{r}q^{n-r}~+~ \underbrace{~\sum _{r=0}^n ~r\cdot {_{n}C_{r}}~p^{r}q^{n-r}~}_{\text{E(X)=np}}$
    $~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~r(r-1) \cdot \cfrac{n!}{r!(n-r)!}~p^rq^{n-r} ~+~ np$
    $~~~~~~~~~~~~~ = \displaystyle \sum _{r=2}^n ~r(r-1) \cdot \cfrac{n(n-1)(n-2)!}{r(r-1)(r-2)!(n-r)!}~p^2p^{r-2}q^{n-r} ~+~ np$
    $~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2\sum _{r=2}^n \cfrac{(n-2)!}{(r-2)!(n-r)!}~p^{r-2}q^{(n-2)-(r-2)} ~+~ np$
    $~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2 \underbrace{~\sum _{r=0}^n ~_{n-2}C_r ~ p^rq^{n-2-r}~}_{\text{이항정리}} ~+~ np$
    $~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2 \cdot (p+q)^{n-2} ~+~ np ~=~ n(n-1)p^2 ~+~ np$
    
    $V(X) ~=~ E(X^2)-(E(X))^2$
    $~~~~~~~~~~~~ =~ n(n-1)p^2 + np - (np)^2$
    $~~~~~~~~~~~~ =~ n^2p^2 -np^2 + np - n^2p^2 ~ =~ np(1-p)$
- $\boxed{\sigma (X) = \sqrt{~npq~}}$

🔰 포아송분포

🔰 기하분포

Geometric Distribution
어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 $X$ 의 확률분포이다.
이때 각 시도는 베르누이 시행을 따른다.

$~~~~~f_x(X)=P(X=x)=(1-p)^{x-1}p,~~x=1,~2,~\cdots$
$~~~~~~~~~~ X \thicksim Geometric(p)$
- ex.
  축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률분포는?
  $~~~~~ P(X=5)=(1-0.3)^{5-1} \times 0.3=0.07203$

기하분포의 기대값, $E(X)=\cfrac{1}{~p~},~~$ 분산, $Var(X)=\cfrac{~1-p~}{p^2}$

🔰 음이항분포

Negative Binomial Distribution
어떤 실험에서 성공 확률이 $p$ 일 때, $r$ 번의 실패가 나올 때까지 발생한 성공 횟수 $X$ 의 확률분포이다.

$~~~~~f_x(X)=P(X=x)=_{x+r-1}C_x \cdot p^x(1-p)^r, ~~x=1,~2,~\cdots$

$~~~~~~~~~~~ X \thicksim NB(r,~p)$
- ex.
  농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번의 실패가 나올 때까지 성공시킨 자유투가 10번일 확률은?
  $~~~~~P(X=10)=_{12}C_{10} \times 0.9^{10}0.1^3 = 0.023$

음이항분포의 기대값, $E(X)=r\cfrac{~1-p~}{~p~},~~$ 분산, $Var(X)=r\cfrac{~1-p~}{p^2}$

<연속형 확률분포>

🔸 확률밀도함수

probability density function(pdf)
연속형 확률변수 $X$ 에 대해서 함수 $f(x)$ 가 아래의 조건을 만족하면 확률밀도함수라고 한다.
1. 모든 $X$ 에 대해서 $\boxed{~f(x) \ge 0~}$
2. $P\big(x \in (- \infin,~\infty) \big) = \boxed{\int _{-\infin}^{\infin} f(x)dx = 1}$
3. $P\big(a \le X \le b \big)= \boxed{\int_a^b f(x)dx}$
확률밀도함수의 성질
- $P(X=a) ~=~ P(a \le X \le a) = \int_a^a f(x)dx = 0$
- $P(a \le X \le b) = P(a \le X <b) = P(a < X \le b) = P(a < X <b)$
확률밀도함수의 평균(기대값)과 분산
- $E(X) = \int_{-\infin}^\infin xf(x)dx$
- $V(X)=E(X- \mu)^2 = \int_{-\infin}^\infin (x-\mu)^2f(x)dx$

🔸 누적분포함수

Cumulative Density Function
확률밀도함수를 적분하면 누적분포함수가 된다.

$~~~ F(x)=P[X \le x]= \displaystyle \int_{-\infin}^{~x} f(x)dx$
$~~~ \cfrac{d}{dx}F(x)=f(x)$
누적분포함수의 성질
1. $0 \le F(x) \le 1$
2. $만약~b \ge a,~~F(b) \ge F(a)$
3. $F(b)-F(a)=P[a \le X \le b]$

🔰 균일분포

🔰 정규분포

🔰 표준정규분포

Standard Normal Distribution
평균이 0이고 분산이 1인 정규분포 $N(0,~1)$ 을 표준정규분포라고 한다.
확률변수 $Z$ 가 표준정규분포 $N(0,~1)$ 을 따를 때, $Z$ 의 확률밀도함수는
$~~~~~ f(z)= \cfrac{1}{~\sqrt{2\pi~}~}~e^{-\frac{~z^2~}{2}}$

정규분포의 표준화
확률변수 $X$ 가 정규분포 $N(m,~\sigma^2)$ 을 따를 때,
확률변수 $Z=\frac{~X-m~}{\sigma}$ 은 표준정규분포 $N(0,~1)$ 을 따른다.
이와 같이 정규분포 $N(m,~\sigma^2)$ 을 따르는 확률변수 $X$ 를
표준정규분포 $N(0,~1)$ 을 따르는 확률변수 $Z=\frac{~X-m~}{\sigma}$ 으로 바꾸는 것을 표준화라고 한다.

$~~~~~ \varphi(x)= \cfrac{1}{~\sqrt{2\pi~}~}~e^{-\frac{~z^2~}{2}}$

$~~~~~ \varphi(x)= P[Z \le z]$
확률변수 $X$ 가 정규분포 $N(m,~\sigma^2)$ 을 따른다면
$P(a \le X \le b) = P\big(\frac{~a-m~}{\sigma} \le Z \le \frac{~b-m~}{\sigma} \big)$ 으로 표준화한 후, 표준정규분포표를 이용한다.
- ex.
  - $P[Z \le 1.96] = 0.975$
  - $P[Z \le -1.96] = 1-P[Z \le 1.96]= 0.025$
  - $P[0.5 \le Z \le 1.96] = 0.975 - 0.6915 = 0.28354$
  - $X \thicksim NB(100,~10^2)$ 일 때, $P[100 \le X \le110]$ 을 구하시오
    $~P[100 \le X \le110]=P\Big(\frac{100-100}{10} \le \frac{X-100}{10} \le \frac{110-100}{10} \Big)$
    $~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ = P(0 \le Z \le 1)=0.8413-0.5=0.3413$
표준정규분포표

🔰 지수분포

<확률분포 관계도>

표본분포

모집단(Population)

통계 조사에서 조사하고자 하는 대상 전체를 모집단이라고 한다.
어느 모집단에서 조사하고자 하는 특성을 나타내는 확률변수를 $X$ 라 할 때,
$X$ 의 평균, 분산, 표준편차를 각각 모평균 $~\mu,~$ 모분산 $~\sigma^2,~$ 모표준편차 $~ \sigma$ 라 한다.

표본(Sample)

통계 조사를 위해 뽑은 모집단의 일부분을 표본이라고 한다.
표본조사에서 뽑은 표본의 개수를 표본의 크기라고 한다.

모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 하는 것이다.
모집단에서 표본을 추출하는 방법에는 여러 가지가 있다.
- 복원추출(Sampling with replacement)
  모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있다.
- 비복원추출(Sampling without replacement)
  모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법이다.
- Random Sampling
  모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법이다.

통계량(Statistic)
표본에 기초하여 계산되는 수치 함수를 통계량이라고 한다.

모집단에서 임의추출한 크기가 $n$ 인 표본에서 각 대상을 $X_1,~X_2,~\cdots,~X_n$ 이라 할 때,
- 표본평균(Sample mean) $~ \bar{X}=\cfrac{1}{n} \displaystyle \sum_{i=1}^n X_i$
- 표본분산(Sample variance) $~S^2 = \cfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2$
- 표본표준편차(Sample standard deviation) $~S=\sqrt{S^2}$
모평균이 $\mu,~$ 모표준편차가 $\sigma~$ 인 모집단에서 임의추출한 크기가 $n$ 인 표본의 표본평균 $\bar X$ 에 대하여
- 표본평균 $\bar X$ 의 기대값 $~E(\bar X)=\mu$
- 표본평균 $\bar X$ 의 분산 $~V(\bar X)=\cfrac{~\sigma^2~}{n}$
- 표본평균 $\bar X$ 의 표준편차 $~\sigma(\bar X)=\cfrac{~\sigma}{\sqrt{n~}}$
- ex.
  모평균이 20, 모표준편차가 4인 모집단에서 임의 추출한 크기가 4인 표본의 표본평균을 $\bar X$ 라 하면
  
  $~~~~~E(\bar X)=20,~~~V(\bar X)=\frac{4^2}{4}=4,~~~\sigma(\bar X)=\frac{4}{\sqrt{4}}=2$
표본평균의 분포

정규분포 $N(\mu,~\sigma^2)$ 을 따르는 모집단에서 임의추출한 크기가 $n$ 인 표본의 표본평균을 $\bar X$ 라 할 때, $\bar X$ 는 정규분포 $N\Big(\mu,~\cfrac{~\sigma^2~}{n~}\Big)$ 을 따른다.
- ex.
  정규분포 $N(75,~6^2)$ 을 따르는 모집단에서 크기가 9인 표본을 임의추출할 때, 표본평균을 $\bar X$ 라하면 $\bar X$ 는 정규분포 $N\Big(75,~\cfrac{~6^2~}{9~}\Big),~$ 즉 $N(75,~2^2)$ 을 따른다.

🔰 중심극한정리

Central Limit Theorem
평균이 $\mu$ 이고 분산이 $\sigma^2$ 인 임의의 모집단에서 랜덤 표본 $X_1,~X_2,~\cdots,~X_n$ 을 추출할 때 표본의 크기 $n$ 이 충분히 크면 $(n \ge 30),~$ 표본 평균 $\bar X$ 은 근사적으로 정규분포 $N(\mu,~\frac{\sigma^2}{n})$ 을 따른다.

$~~~~~ Z=\cfrac{\bar X -\mu}{\cfrac{~\sigma}{\sqrt{n~}}} ~\thicksim N(0,~1)$
ex.
모집단의 분포가 정규분포가 아닐 때라도 $n$ 이 충분히 크다면 $\bar X$ 는 근사적으로 정규분포 $N\Big(m,~\cfrac{~\sigma^2~}{n~}\Big)$ 을 따른다.