꼭 기억할 부분
- 분포에 대한 정의, 표현되는 함수식, 예시들
- 이산형 균등분포의 기대값, 분산
- 베르누이 분포의 평균:P, 분산:p(1-p)
- 정규분포, 식은 꼭 기억하고 외우기
📍 확률 분포(probability distribution)
확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수
🔖 이산형 확률분포
-
확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함
-
이산형 균등분포의 기대값 : E(X)=2n+1

-
이산형 균등분포의 분산 : V(X)=12n2−1

베르누이 시행(Bernoulli trial)
- 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행
- 베르누이 분포(Bernoulli distribution)
베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 갖을 때 확률 변수X의 분포
X={ab성공실패,X Bernoulli(p)
-
베르누이 분포의 평균 : P 
-
베르누이 분포의 분산 : p(1−p)
-
예제 : 파란공 7개, 빨간공 3개가 들어있는 주머니에서 공 하나를 뽑을 때, 파란공이면 성공 빨란공이라면 실패인 실험을 한다고 가정하자. 이때 베르누이 분포를 정의
이항분포(Binomial distribution)
-
연속적인 베르누이 시행을 거쳐 나타나는 확률분포
-
서로 독립(각각의 사건에 서로 영향을 미치지 않는것)인 베르누이 시행을 n번 반복해서 실행했을때, 성공한 횟수 X의 분포
-
이항분포의 기대값 : np
-
이항분포의 분산 : np(1−p)
-
예시 : 축구선수의 패널티킥 성공률이 80%일때, 10번의 기회에서 성공횟수와 그 확률을 구하면 아래와 같음
포아송분포(Poisson distribution)
- 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예:1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
- 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
- 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
- 포아송분포 확률 변수의 기댓값 & 분산은 모두 λ(lambda) 임

- 예제 : 야구장에서 경기당 홈런볼을 잡는 관객이 평균 3명이라고 가정
- 오늘 경기에서 2명 이상이 홈런볼을 잡을 확률
- 오늘과 내일 경기에서 홈런볼을 잡지 못할 확률

이항분포의 포아송 근사
-
확률 변수X가 X B(n,p)이고, n이 충분히 크고, p가 아주 작을 때, X의 분포는 평균이 λ=np인 포아송분포로 근사시킬수 있음
-
보통 n이 클때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X Poisson(np)
-
예시 : 이항 분포와 포아송 비교
아래의 표는 엑셀로 가능하며 분포를 표현하는 함수식으로 작성해 보시오
n=100,p=0.01 인 이항 분포 X B(100,0.01)를 포아송 근사하면 X Poison(1)이 된다. (λ=100∗0.01=1)
기하분포(geometric distribution)
-
어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포
(시도 = 베르누이 시행을 따름)
-
기하 분포의 기대값 : p1
-
기하 분포의 분삭 : p21−p
-
예시 : 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포
음이항분포(negative binomial distribution)
-
어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률분포
-
음이항분포의 기대값 : rp1−p
-
음이항분포의 분산 : rp21−p
-
예시 : 농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때 까지 성공시킨 자유투가 10번일 확률
summary

출처 : http://jangun.com/study/ProbabilityConcept.html
🔖 연속형 확률 분포
확률밀도함수(probability density function) = pdf
- 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률 밀도함수라고 함


- 확률밀도함수의 평균 : E(X)=∫−∞∞xf(x)dx
- 확률밀도함수의 분산 : Var(X)=E(X−μ)2=∫−∞∞(x−μ)2f(x)dx
누적분포함수(cumulative density function) = cdf
- 확률밀도함수를 적분하면 누적분포함수가 됨
F(x)=P[X≤x]=∫−∞xf(x)dx dxdF(x)=f(x) 
- 누적분포함수의 성질
- 0≤F(x)≤1
- 만약 b≥a,F(b)≥F(a)
- F(d)−F(a)=P[a≤x≤b]
- 확률 변수가 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 갚음

정규분포(normal distribution) = 가우스분포
-
확률밀도함수는 확률변수 X가 평균이 μ 이고, 분산이 σ2인 정규분포
-
정규분포의 평균 : E[X]=μ
-
정규분포의 분산 : Var[X]=σ2
-
정규분포의 표준편차 : σ 
-
파라메터의 따른 정규분포 모양 비교(그래프는 항상 데칼코마니, 뮤의값에 따라 중심이 달라짐, 시그마의 값에 따라 그래프의 넓이가 달라짐)
- 표준 정규 분포(standard normal distribution) = 표준화 정규 분포
- 확률 변수 X ~ N(μ,σ2) 정규 분포를 따르고, 확률변수 Z=σX−μ라고 할 때 확률변수 Z ~ N(0,1)


- 정규분포의 성질

- 이항분포의 정규 근사
- X~B(n,p)일 때, 확률 변수 X는 n이 충분히 크면 근사적으로 정규 분포 X ~ N(np,np(1−p))를 따름


실습

지수 분포(exponential distribution)
- 단위 시간당 발생할 확률 λ인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포임
- 지수분포의 평균 : E[X]=λ1
- 지수분포의 분삭 : Var[X]=λ21
예시 ) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포임
- 지수 분포는 연속 되는 사건의 사이의 대기 시간도 지수분포임
- 즉 앞의 예시에서 두번째 버스가 도착하고 세번째 버스가 도착할때까지 대기 시간의 분포도 지수 분포임
- 지수 분포의 pdf f(x)=λe−λx, x≥0 X~Exp(\lambda)
- 지수 분포의 cdp F(x)=1−eλx,x≥0


지수분포의 무기억성(Memoryless Property)

- 어떤 시점 부터 소요되는 시간은 과거 시간에 영향을 받지 않음
- 예시) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
- 전구를 한달 동안 사용 했을 때 남은 수명은 하달 간 사용했던 영향을 받지 않음, 즉 새전구와 한달 간 사용한 전구의 남은 수명은 같다고 생각하지만 실제 적용에 문제가 있고, 생존 분석에서는 Weibull분포 또는 log-normal분포를 사용하여 예측
지수분포와 포아송분포의 관계

확률 분포의 관계도
