임시

손윤재·2024년 2월 4일
post-thumbnail

확률분포

Probability Distribution
확률변수 XX가 갖는 값과 XX가 이 값을 가질 확률의 대응 관계를 XX확률분포라 한다.
확률변수 XX가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수이다.


<이산형 확률분포>


🔰 이산형균등분포


🔰 베르누이분포


🔰 이항분포

  • Binomial Distribution
    연속적인 베르누이 시행을 거쳐 나타나는 확률 분포이다.
    베르누이 시행(Bernoulli trial)은 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 의미한다.

  • 한 번의 시행에서 사건 AA가 일어날 확률이 pp로 일정할 때, nn번의 독립시행에서 사건 AA 가 일어나는 횟수를 XX라 하면 확률변수 XX가 가질 수 있는 값은 0, 1, 2, , n0,~1,~2,~\cdots,~n이며, 그 확률질량함수는 다음과 같다.

         P(X=x)=nCxpxqnx   (x=1,2,,n,  q=1p)~~~~~ P(X=x)= {_nC_x}p^xq^{n-x}~~~(x=1,2,\cdots,n,~~q=1-p)

    • nCx_nC_xnn번 시행에서 사건 AAxx번 일어나는 경우의 수이다.
    • pxqnxp^xq^{n-x}은 각 경우의 확률이다.
    • 동일한 시행을 반복하는 경우에 각 시행에서 일어나는 사건이 서로 독립일 때, 이것을 독립시행이라고 한다.
  • 서로 독립인 베르누이 시행을 nn번 반복해서 실행했을 때, 성공한 횟수 XX의 확률분포를 이항분포, B(n,p)\color{blue}B(n, p)라 한다.   XB(n, p)~~\Rightarrow X \thicksim B(n,~p)

  • ex.

    • 완치율이 80%인 약을 100명의 환자에게 투약했을 때 완치되는 환자의 수를 확률변수 XX라 하면 XX는 이항분포 B(100,0.8)B(100, 0.8)을 따르고 XX의 확률질량함수는
           P(X=x) = 100Cx(0.8)x(0.2)100x  (x=0,1,2,,100)~~~~~ P(X=x) ~=~ _{100}C_x(0.8)^x(0.2)^{100-x}~~(x=0,1,2,\cdots,100)

    • 축구선수의 패널티킥 성공률이 80%일 때, 10번의 기회에서 성공 횟수와 그 확률을 구하면
           P(x) = (10x)(0.8)x(0.2)10x  (x=0,1,2,,10)~~~~~ P(x) ~=~ \dbinom{10}{x}(0.8)^x(0.2)^{10-x}~~(x=0,1,2,\cdots,10)

  • 이항분포의 기대값(평균), 분산, 표준편차

    확률변수 XX가 이항분포 B(n, p)B(n,~p)를 따를 때, XX의 평균, 분산 표준편차는
    ( 단,  q=1p~q=1-p )

    • E(X)=np\boxed{E(X)=np}

      • 증명
        E(X)=r=0nrnCrprqnr ,  (q=1p)E(X)= \sum _{r=0}^n r \cdot {_nC_r}p^rq^{n-r}~,~~(q=1-p)
                   =r=0nrn!r!(nr)! prqnr~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n r \cdot \cfrac{n!}{r!(n-r)!}~p^rq^{n-r}
                   =r=0nrn(n1)!r(r1)!(nr)! ppr1qnr~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n r \cdot \cfrac{n\cdot(n-1)!}{r\cdot(r-1)!(n-r)!}~p\cdot p^{r-1}q^{n-r}
                   =npr=1n(n1)!(r1)!(nr)! pr1q(n1)(r1)~~~~~~~~~~~ = \displaystyle np\sum _{r=1}^n \cfrac{(n-1)!}{(r-1)!(n-r)!}~p^{r-1}q^{(n-1)-(r-1)}
                   =np r=1nn1Cr1 pr1qnr 이항정리 = np(p+q)n1 = np~~~~~~~~~~~ = \displaystyle np \underbrace{~\sum _{r=1}^n {_{n-1}C_{r-1}}~p^{r-1}q^{n-r}~}_{\text{이항정리}}~ =~np(p+q)^{n-1} ~=~ np
    • V(X)=npq=np(1p)\boxed{V(X) = npq = np(1-p)}

      • 증명
        E(X2)=r=0n r2nCrprqnr,  (q=1p)E(X^2)= \sum _{r=0}^n ~r^2 \cdot {_nC_r}p^rq^{n-r},~~(q=1-p)
                     =r=0n (r2r+r)nCr prqnr~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~(r^2-r+r) \cdot {_{n}C_{r}}~p^{r}q^{n-r}
                     =r=0n r(r1)nCr prqnr +  r=0n rnCr prqnr E(X)=np~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~r(r-1)\cdot {_{n}C_{r}}~p^{r}q^{n-r}~+~ \underbrace{~\sum _{r=0}^n ~r\cdot {_{n}C_{r}}~p^{r}q^{n-r}~}_{\text{E(X)=np}}
                     =r=0n r(r1)n!r!(nr)! prqnr + np~~~~~~~~~~~~~ = \displaystyle \sum _{r=0}^n ~r(r-1) \cdot \cfrac{n!}{r!(n-r)!}~p^rq^{n-r} ~+~ np
                     =r=2n r(r1)n(n1)(n2)!r(r1)(r2)!(nr)! p2pr2qnr + np~~~~~~~~~~~~~ = \displaystyle \sum _{r=2}^n ~r(r-1) \cdot \cfrac{n(n-1)(n-2)!}{r(r-1)(r-2)!(n-r)!}~p^2p^{r-2}q^{n-r} ~+~ np
                     =n(n1)p2r=2n(n2)!(r2)!(nr)! pr2q(n2)(r2) + np~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2\sum _{r=2}^n \cfrac{(n-2)!}{(r-2)!(n-r)!}~p^{r-2}q^{(n-2)-(r-2)} ~+~ np
                     =n(n1)p2 r=0n n2Cr prqn2r 이항정리 + np~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2 \underbrace{~\sum _{r=0}^n ~_{n-2}C_r ~ p^rq^{n-2-r}~}_{\text{이항정리}} ~+~ np
                     =n(n1)p2(p+q)n2 + np = n(n1)p2 + np~~~~~~~~~~~~~ = \displaystyle n(n-1)p^2 \cdot (p+q)^{n-2} ~+~ np ~=~ n(n-1)p^2 ~+~ np

        V(X) = E(X2)(E(X))2V(X) ~=~ E(X^2)-(E(X))^2
                    = n(n1)p2+np(np)2~~~~~~~~~~~~ =~ n(n-1)p^2 + np - (np)^2
                    = n2p2np2+npn2p2 = np(1p)~~~~~~~~~~~~ =~ n^2p^2 -np^2 + np - n^2p^2 ~ =~ np(1-p)

    • σ(X)= npq \boxed{\sigma (X) = \sqrt{~npq~}}


🔰 포아송분포


🔰 기하분포

  • Geometric Distribution

  • 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 XX의 확률분포이다.
    이때 각 시도는 베르누이 시행을 따른다.

         fx(X)=P(X=x)=(1p)x1p,  x=1, 2, ~~~~~f_x(X)=P(X=x)=(1-p)^{x-1}p,~~x=1,~2,~\cdots
              XGeometric(p)~~~~~~~~~~ X \thicksim Geometric(p)

    • ex.
      축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률분포는?
           P(X=5)=(10.3)51×0.3=0.07203~~~~~ P(X=5)=(1-0.3)^{5-1} \times 0.3=0.07203
  • 기하분포의 기대값, E(X)=1 p ,  E(X)=\cfrac{1}{~p~},~~ 분산, Var(X)= 1p p2Var(X)=\cfrac{~1-p~}{p^2}

🔰 음이항분포

  • Negative Binomial Distribution

  • 어떤 실험에서 성공 확률이 pp일 때, rr번의 실패가 나올 때까지 발생한 성공 횟수 XX의 확률분포이다.

         fx(X)=P(X=x)=x+r1Cxpx(1p)r,  x=1, 2, ~~~~~f_x(X)=P(X=x)=_{x+r-1}C_x \cdot p^x(1-p)^r, ~~x=1,~2,~\cdots

               XNB(r, p)~~~~~~~~~~~ X \thicksim NB(r,~p)

    • ex.
      농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번의 실패가 나올 때까지 성공시킨 자유투가 10번일 확률은?
           P(X=10)=12C10×0.9100.13=0.023~~~~~P(X=10)=_{12}C_{10} \times 0.9^{10}0.1^3 = 0.023
  • 음이항분포의 기대값, E(X)=r 1p  p ,  E(X)=r\cfrac{~1-p~}{~p~},~~ 분산, Var(X)=r 1p p2Var(X)=r\cfrac{~1-p~}{p^2}

<연속형 확률분포>


🔸 확률밀도함수

  • probability density function(pdf)
    연속형 확률변수 XX에 대해서 함수 f(x)f(x)가 아래의 조건을 만족하면 확률밀도함수라고 한다.

    1. 모든 XX에 대해서  f(x)0 \boxed{~f(x) \ge 0~}

    2. P(x(, ))=f(x)dx=1P\big(x \in (- \infin,~\infty) \big) = \boxed{\int _{-\infin}^{\infin} f(x)dx = 1}

    3. P(aXb)=abf(x)dxP\big(a \le X \le b \big)= \boxed{\int_a^b f(x)dx}

  • 확률밀도함수의 성질

    • P(X=a) = P(aXa)=aaf(x)dx=0P(X=a) ~=~ P(a \le X \le a) = \int_a^a f(x)dx = 0

    • P(aXb)=P(aX<b)=P(a<Xb)=P(a<X<b)P(a \le X \le b) = P(a \le X <b) = P(a < X \le b) = P(a < X <b)

  • 확률밀도함수의 평균(기대값)분산

    • E(X)=xf(x)dxE(X) = \int_{-\infin}^\infin xf(x)dx

    • V(X)=E(Xμ)2=(xμ)2f(x)dxV(X)=E(X- \mu)^2 = \int_{-\infin}^\infin (x-\mu)^2f(x)dx


🔸 누적분포함수

  • Cumulative Density Function

  • 확률밀도함수를 적분하면 누적분포함수가 된다.

       F(x)=P[Xx]= xf(x)dx~~~ F(x)=P[X \le x]= \displaystyle \int_{-\infin}^{~x} f(x)dx
       ddxF(x)=f(x)~~~ \cfrac{d}{dx}F(x)=f(x)

  • 누적분포함수의 성질

    1. 0F(x)10 \le F(x) \le 1

    2. 만약 ba,  F(b)F(a)만약~b \ge a,~~F(b) \ge F(a)

    3. F(b)F(a)=P[aXb]F(b)-F(a)=P[a \le X \le b]


🔰 균일분포


🔰 정규분포


🔰 표준정규분포

  • Standard Normal Distribution

  • 평균이 0이고 분산이 1인 정규분포 N(0, 1)N(0,~1)표준정규분포라고 한다.

  • 확률변수 ZZ가 표준정규분포 N(0, 1)N(0,~1)을 따를 때, ZZ의 확률밀도함수는
         f(z)=1 2π   e z2 2~~~~~ f(z)= \cfrac{1}{~\sqrt{2\pi~}~}~e^{-\frac{~z^2~}{2}}

  • 정규분포의 표준화
    확률변수 XX가 정규분포 N(m, σ2)N(m,~\sigma^2)을 따를 때,
    확률변수 Z= Xm σZ=\frac{~X-m~}{\sigma}은 표준정규분포 N(0, 1)N(0,~1)을 따른다.
    이와 같이 정규분포 N(m, σ2)N(m,~\sigma^2)을 따르는 확률변수 XX
    표준정규분포 N(0, 1)N(0,~1)을 따르는 확률변수 Z= Xm σZ=\frac{~X-m~}{\sigma}으로 바꾸는 것을 표준화라고 한다.

         φ(x)=1 2π   e z2 2~~~~~ \varphi(x)= \cfrac{1}{~\sqrt{2\pi~}~}~e^{-\frac{~z^2~}{2}}

         φ(x)=P[Zz]~~~~~ \varphi(x)= P[Z \le z]

  • 확률변수 XX가 정규분포 N(m, σ2)N(m,~\sigma^2)을 따른다면
    P(aXb)=P( am σZ bm σ)P(a \le X \le b) = P\big(\frac{~a-m~}{\sigma} \le Z \le \frac{~b-m~}{\sigma} \big)으로 표준화한 후, 표준정규분포표를 이용한다.

    • ex.

      • P[Z1.96]=0.975P[Z \le 1.96] = 0.975

      • P[Z1.96]=1P[Z1.96]=0.025P[Z \le -1.96] = 1-P[Z \le 1.96]= 0.025

      • P[0.5Z1.96]=0.9750.6915=0.28354P[0.5 \le Z \le 1.96] = 0.975 - 0.6915 = 0.28354

      • XNB(100, 102)X \thicksim NB(100,~10^2)일 때, P[100X110]P[100 \le X \le110]을 구하시오
         P[100X110]=P(10010010X1001011010010)~P[100 \le X \le110]=P\Big(\frac{100-100}{10} \le \frac{X-100}{10} \le \frac{110-100}{10} \Big)
                                          =P(0Z1)=0.84130.5=0.3413~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ = P(0 \le Z \le 1)=0.8413-0.5=0.3413

  • 표준정규분포표


🔰 지수분포



<확률분포 관계도>




표본분포

모집단(Population)

통계 조사에서 조사하고자 하는 대상 전체를 모집단이라고 한다.
어느 모집단에서 조사하고자 하는 특성을 나타내는 확률변수를 XX라 할 때,
XX의 평균, 분산, 표준편차를 각각 모평균 μ, ~\mu,~모분산 σ2, ~\sigma^2,~모표준편차 σ~ \sigma 라 한다.

표본(Sample)

통계 조사를 위해 뽑은 모집단의 일부분을 표본이라고 한다.
표본조사에서 뽑은 표본의 개수를 표본의 크기라고 한다.

  • 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 하는 것이다.

  • 모집단에서 표본을 추출하는 방법에는 여러 가지가 있다.

    • 복원추출(Sampling with replacement)
      모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있다.

    • 비복원추출(Sampling without replacement)
      모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법이다.

    • Random Sampling
      모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법이다.

통계량(Statistic)
표본에 기초하여 계산되는 수치 함수를 통계량이라고 한다.

  • 모집단에서 임의추출한 크기가 nn인 표본에서 각 대상을 X1, X2, , XnX_1,~X_2,~\cdots,~X_n이라 할 때,

    • 표본평균(Sample mean)  Xˉ=1ni=1nXi~ \bar{X}=\cfrac{1}{n} \displaystyle \sum_{i=1}^n X_i

    • 표본분산(Sample variance)  S2=1n1i=1n(XiXˉ)2~S^2 = \cfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2

    • 표본표준편차(Sample standard deviation)  S=S2~S=\sqrt{S^2}

  • 모평균이 μ, \mu,~ 모표준편차가 σ \sigma~인 모집단에서 임의추출한 크기가 nn인 표본의 표본평균 Xˉ\bar X에 대하여

    • 표본평균 Xˉ\bar X의 기대값  E(Xˉ)=μ~E(\bar X)=\mu

    • 표본평균 Xˉ\bar X의 분산  V(Xˉ)= σ2 n~V(\bar X)=\cfrac{~\sigma^2~}{n}

    • 표본평균 Xˉ\bar X의 표준편차  σ(Xˉ)= σn ~\sigma(\bar X)=\cfrac{~\sigma}{\sqrt{n~}}

    • ex.
      모평균이 20, 모표준편차가 4인 모집단에서 임의 추출한 크기가 4인 표본의 표본평균을 Xˉ\bar X라 하면

           E(Xˉ)=20,   V(Xˉ)=424=4,   σ(Xˉ)=44=2~~~~~E(\bar X)=20,~~~V(\bar X)=\frac{4^2}{4}=4,~~~\sigma(\bar X)=\frac{4}{\sqrt{4}}=2

  • 표본평균의 분포

    정규분포 N(μ, σ2)N(\mu,~\sigma^2)을 따르는 모집단에서 임의추출한 크기가 nn인 표본의 표본평균을 Xˉ\bar X라 할 때, Xˉ\bar X는 정규분포 N(μ,  σ2 n )N\Big(\mu,~\cfrac{~\sigma^2~}{n~}\Big)을 따른다.

    • ex.
      정규분포 N(75, 62)N(75,~6^2)을 따르는 모집단에서 크기가 9인 표본을 임의추출할 때, 표본평균을 Xˉ\bar X라하면 Xˉ\bar X는 정규분포 N(75,  62 9 ), N\Big(75,~\cfrac{~6^2~}{9~}\Big),~N(75, 22)N(75,~2^2)을 따른다.

🔰 중심극한정리

  • Central Limit Theorem

  • 평균이 μ\mu이고 분산이 σ2\sigma^2인 임의의 모집단에서 랜덤 표본 X1, X2, , XnX_1,~X_2,~\cdots,~X_n을 추출할 때 표본의 크기 nn이 충분히 크면(n30), (n \ge 30),~ 표본 평균 Xˉ\bar X은 근사적으로 정규분포 N(μ, σ2n)N(\mu,~\frac{\sigma^2}{n})을 따른다.

         Z=Xˉμ σn  N(0, 1)~~~~~ Z=\cfrac{\bar X -\mu}{\cfrac{~\sigma}{\sqrt{n~}}} ~\thicksim N(0,~1)

  • ex.

  • 모집단의 분포가 정규분포가 아닐 때라도 nn이 충분히 크다면 Xˉ\bar X는 근사적으로 정규분포 N(m,  σ2 n )N\Big(m,~\cfrac{~\sigma^2~}{n~}\Big)을 따른다.


🔰 카이제곱분포


🔰 T분포


🔰 F분포

profile
ISTP(정신승리), To Be Data Scientist

0개의 댓글