[10주차] 통계_02

심하림·2023년 7월 6일

통계

목록 보기
2/4

꼭 기억할 부분

  • 분포에 대한 정의, 표현되는 함수식, 예시들
  • 이산형 균등분포의 기대값, 분산
  • 베르누이 분포의 평균:P, 분산:p(1-p)
  • 정규분포, 식은 꼭 기억하고 외우기

📍 확률 분포(probability distribution)

확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수

🔖 이산형 확률분포

이산형 균등 분포(discrete uniform distribution)

  • 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함

  • 이산형 균등분포의 기대값 : E(X)=n+12E(X)=\frac{n+1}{2}

  • 이산형 균등분포의 분산 : V(X)=n2112V(X)=\frac{n^2-1}{12}

베르누이 시행(Bernoulli trial)

  • 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행
  • 베르누이 분포(Bernoulli distribution)
    베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 갖을 때 확률 변수X의 분포
    X={a성공b실패,X Bernoulli(p)X =\begin{cases}a & 성공\\b & 실패\end{cases} , X ~ Bernoulli(p)
  • 베르누이 분포의 평균 : PP

  • 베르누이 분포의 분산 : p(1p)p(1-p)

  • 예제 : 파란공 7개, 빨간공 3개가 들어있는 주머니에서 공 하나를 뽑을 때, 파란공이면 성공 빨란공이라면 실패인 실험을 한다고 가정하자. 이때 베르누이 분포를 정의

이항분포(Binomial distribution)

  • 연속적인 베르누이 시행을 거쳐 나타나는 확률분포

  • 서로 독립(각각의 사건에 서로 영향을 미치지 않는것)인 베르누이 시행nn번 반복해서 실행했을때, 성공한 횟수 XX의 분포

  • 이항분포의 기대값 : npnp

  • 이항분포의 분산 : np(1p)np(1-p)

  • 예시 : 축구선수의 패널티킥 성공률이 80%일때, 10번의 기회에서 성공횟수와 그 확률을 구하면 아래와 같음

포아송분포(Poisson distribution)

  • 어느 희귀한 사건이 어떤일정한 시간대에 특정한사건이 발생할 확률분포
    예시 ) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등등..

  • 포아송분포의 조건

  1. 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예:1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
  2. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
  3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
  4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
  5. 포아송분포 확률 변수의 기댓값 & 분산은 모두 λ(lambda)
  • 예제 : 야구장에서 경기당 홈런볼을 잡는 관객이 평균 3명이라고 가정
  1. 오늘 경기에서 2명 이상이 홈런볼을 잡을 확률
  2. 오늘과 내일 경기에서 홈런볼을 잡지 못할 확률

이항분포의 포아송 근사

  • 확률 변수XXX B(n,p)X~B(n,p)이고, nn이 충분히 크고, pp가 아주 작을 때, XX의 분포는 평균이 λ=np\lambda=np인 포아송분포로 근사시킬수 있음

  • 보통 nn이 클때, np<5np<5를 만족하게 pp가 작으면 근사 정도가 좋다고 함 X Poisson(np)X ~ Poisson(np)

  • 예시 : 이항 분포와 포아송 비교
    아래의 표는 엑셀로 가능하며 분포를 표현하는 함수식으로 작성해 보시오
    n=100,p=0.01n=100, p=0.01 인 이항 분포 X B(100,0.01)X~B(100, 0.01)를 포아송 근사하면 X Poison(1)X ~ Poison(1)이 된다. (λ=1000.01=1)(\lambda = 100 * 0.01 = 1)

기하분포(geometric distribution)

  • 어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포
    (시도 = 베르누이 시행을 따름)

  • 기하 분포의 기대값 : 1p\frac{1}{p}

  • 기하 분포의 분삭 : 1pp2\frac{1-p}{p^2}

  • 예시 : 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포

음이항분포(negative binomial distribution)

  • 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률분포

  • 음이항분포의 기대값 : r1ppr\frac{1-p}{p}

  • 음이항분포의 분산 : r1pp2r\frac{1-p}{p^2}

  • 예시 : 농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때 까지 성공시킨 자유투가 10번일 확률

summary

출처 : http://jangun.com/study/ProbabilityConcept.html

🔖 연속형 확률 분포

확률밀도함수(probability density function) = pdf

  • 연속형 확률 변수 X에 대해서 함수 f(x)f(x)가 아래의 조건을 만족하면 확률 밀도함수라고 함
  • 확률밀도함수의 평균 : E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty}\mathrm{x}f(x)dx
  • 확률밀도함수의 분산 : Var(X)=E(Xμ)2=(xμ)2f(x)dxVar(X) = E(X-\mu)^2 = \int_{-\infty}^{\infty}\mathrm{(x-\mu)^2}f(x)dx

누적분포함수(cumulative density function) = cdf

  • 확률밀도함수를 적분하면 누적분포함수가 됨
    F(x)=P[Xx]=xf(x)dxF(x) = P[X\leq x] = \int_{-\infty}^{x} \mathrm{f(x)}\,\mathrm{d}x
    ddxF(x)=f(x)\frac{d}{dx}F(x) =f(x)
  • 누적분포함수의 성질
  1. 0F(x)10\leq F(x) \leq 1
  2. 만약 ba,F(b)F(a)b \geq a, F(b) \geq F(a)
  3. F(d)F(a)=P[axb]F(d)-F(a) = P[a \leq x \leq b]

균일분포(uniform distribution)

  • 확률 변수가 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 갚음

정규분포(normal distribution) = 가우스분포

  • 확률밀도함수는 확률변수 X가 평균이 μ\mu 이고, 분산이 σ2\sigma^2인 정규분포

  • 정규분포의 평균 : E[X]=μE[X] = \mu

  • 정규분포의 분산 : Var[X]=σ2Var[X] = \sigma^2

  • 정규분포의 표준편차 : σ\sigma

  • 파라메터의 따른 정규분포 모양 비교(그래프는 항상 데칼코마니, 뮤의값에 따라 중심이 달라짐, 시그마의 값에 따라 그래프의 넓이가 달라짐)

- 표준 정규 분포(standard normal distribution) = 표준화 정규 분포

  • 확률 변수 XX ~ N(μ,σ2)N(\mu, \sigma^2) 정규 분포를 따르고, 확률변수 Z=XμσZ=\frac{X-\mu}{\sigma}라고 할 때 확률변수 ZZ ~ N(0,1)N(0,1)

- 정규분포의 성질

- 이항분포의 정규 근사

  • XX~B(n,p)B(n,p)일 때, 확률 변수 XXnn이 충분히 크면 근사적으로 정규 분포 XX ~ N(np,np(1p))N(np, np(1-p))를 따름

실습

지수 분포(exponential distribution)

  • 단위 시간당 발생할 확률 λ\lambda인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 XX는 지수 분포임
  • 지수분포의 평균 : E[X]=1λE[X] = \frac{1}{\lambda}
  • 지수분포의 분삭 : Var[X]=1λ2Var[X] = \frac{1}{\lambda^2}

예시 ) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포임

  • 지수 분포는 연속 되는 사건의 사이의 대기 시간도 지수분포임
  • 즉 앞의 예시에서 두번째 버스가 도착하고 세번째 버스가 도착할때까지 대기 시간의 분포도 지수 분포임
  • 지수 분포의 pdf f(x)=λeλxf(x)=\lambda e^{-\lambda x}, x0x \geq 0 X~Exp(\lambda)
  • 지수 분포의 cdp F(x)=1eλx,x0F(x)=1-e^{\lambda x}, x \geq 0

지수분포의 무기억성(Memoryless Property)

  • 어떤 시점 부터 소요되는 시간은 과거 시간에 영향을 받지 않음
  • 예시) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
  • 전구를 한달 동안 사용 했을 때 남은 수명은 하달 간 사용했던 영향을 받지 않음, 즉 새전구와 한달 간 사용한 전구의 남은 수명은 같다고 생각하지만 실제 적용에 문제가 있고, 생존 분석에서는 Weibull분포 또는 log-normal분포를 사용하여 예측

지수분포와 포아송분포의 관계

확률 분포의 관계도

0개의 댓글