확률분포
:확률변수 X가 취할 수 있는 모든 겂과 그 값을 나타날 확률을 표현한 함수
: 확률변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포
fx(x)=P(X=x) = 1/N where x=1,2,3,...N X~U(a,b) 표현
- 이산형 균등분포의 기대값: E(X)=(n+1) /2
- 분산: (n^2-1)/12 => Var(X)=E(X^2)-{E(X)}^2
베르누이분포
- 베르누이 시행(Bernoulli trail) : 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 베르누이 시행이라고 함
- 베르누이 분포(Bernolli distribution) : 베르누이 시행에서 성공이 1, 실패가 0의 값을 갖을 때 확률변수 X의 분포
- 기대값 E(x) = 1 p + 0 (1-p) = p
- 분산 Var(x) = E(X-p)^2 = (0-p)^2 (1-p) + (1-p)^2 p = P(1-p)
이항분포(Binomial distribution)
: 연속적인 베르누이 시행을 거쳐 나타나는 확률분포임
- 서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포
ex) 축구선수의 패널티킥 성공률이 80%일때 10번의 기회에서 성공횟수와 그 확률
- 기대값 : np, 분산 : np(1-p), E(x^2)=n(n-1)p^2 + np
포아송분포(Poisson distribution)
: 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
ex) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수
포아송 분포의 조건
- 어떤 단위구간(1일?)동안 이를 더 짧은 단위의 구간(1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일저
- 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
- 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
- 포아송분포 확률 변수의 기댓값과 분산은 모두 lambda임
기하분포(Geometric distribution)
: 어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름
음이항분포(negative binomial dsitribution)
: 어떤 실험에서 성공확률이 p일때, r번의 실패가 나올 때까지 발생한 성공 횟수 X의 확률분포
ex) 농구선수가 자유투 성공확률이 90%일때 3번째 실패가 나올때까지 성공시킨 자유튜가 10번일 확률
- 기대값(평균) r*(1-p)/p
- 분산 r*(1-p)/p^2
초기하분포
연속형 확률분포(probability density function) PDF
:연속형 확률 변수 X에 대해서 함수f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함

베르누이 -> (N번 시행하면) -> 이항분포(복원추출) -> 정규분사
이항분포 -> (비복원추출) -> 초기하분포
이항분포 -> (성공할때까지 시도횟수) -> 음이항 분포
이항분포 -> (포아송분포의 이항근사) -> 포아송 분포 -> (첫번째발생까지 대기시간) -> 지수분포 -> ( ) -> 감마분포 -> ( ) -> 카이제곱 분포
누적분포 함수(CDF, cumulative density function) : 확률밀도함수를 적분하면 누적분포함수가 됨


평균 E(x) = (b+a)/2, E(x^2) = (b^2+ab+a^2)/3
분산 Var(x) = (b-a)^2 / 12
정규분포(normal distribution) = 가우스 분포
: 좌우대칭, 합 1, 반은 0.5, 시그마는 떨어진 정도라 보면 됨

표준정규분포(standard normal distribution)


이항분포의 정규 근사

지수분포(exponential distribution)
: 단위 시간당 발생할 확률 lambda인 어떤 사건의 횟수가 포아송 분포를 따른다면 어떤 사건이 처음 발생할때까지 걸린 시간 확률 변수 X는 지수 분포임

지수분포읭 무기억성(memoryless property)
- 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
- ex) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
- 전구를 한달 동안 사용했을 때 남은 수명은 한달 간 사용했던 영향을 받지 않음, 즉 새전구와 한달 간 사용한 전구의 남은 수명은 같다고 생각함
감마분포(gamma distribution)
카이제곱분포(chi-squre distribution)

- 정규분포 N(0,1)을 따르는 표준 정규 변수 Z를 여러개 제곱해서 더하면 카이제곱 주포를 따름
- n이 자유도(degrees of freedom) => 자유도가 커질수록 정규분포에 가까워짐
- 오직 양수만 가짐 (아마 제곱이니깐..?)
- 자유도가 커질수록 대칭적임
- 기울어진 분포(비대칭) -> 자유도(값이 30이상일 때)가 커지면 정규분포에 가까워진다
- 분산 분석 : 모집단의 분산을 추정할 때
- 독립성검정(카이제곱검증) : 두 변수가 서로 독립이지 검정
- 적합도 검정(Goodness of Fit Test) : data가 특정 분포를 따르는지 검정
- 범주형 자료 분석에서 활용함
자유도란? df( degress of freedom)
: 통계에서 마음대로 변할 수 있는 값의 개수, 보통 n-1
ex) 5명의 시험점수 평균이 80으로 고정, 처음 4명은 자유롭게 정할수 있으나 마지막 5번째는 평균 80를 유지해야하므로 자동을 정해진다. 그래서 n - 1 = 5-1=4 여기서 자유도는 4임
베타분포