이산형 확률분포
- 베르누이 시행
- 실험의 결과의 범주가 2가지인 경우(성공/실패)
- X=1(성공) / X=0(실패)
- f(x)=px(1−p)1−x
- 예) 앞면이 성공인 동전 던지기
- 이항분포
- 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포
- f(x)=x!(n−x)!n!px(1−p)n−x
- n≥x≥0, 정수
- 예) 동전 n번 던져 앞면의 횟수
- 다항분포
- 다항시행: 1회의 시행결과로 나올 수 있는 범주가 3개 이상이 되는 확률 시험
- K개 범주의 다항시행을 n번 반복했을 때, 각 범주가 나타나는 횟수의 분포
- f(x1,...,xk)=x1!...xk!n!p1x1...pkxk
- xK=(n−∑k=1K−1xk),pK=1−∑k=1K−1pk,0≤xk≤n, 정수
- 예) 주사위 n번 던져 각 눈이 나온 횟수
- 포아송분포
- 주어진 단위 구간내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
- 사건의 평균 발생횟수는 단위 구간에 비례
- 두개 이상의 사건이 동시에 발생할 확률은 0에 가깝다
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적
- 평균이 μ인 포아송 분포
- f(x)=x!μxe−μ
- x≥0, 정수
- 예) 1시간동안 걸려온 전화의 수. 100페이지안에 있는 오타의 수.
연속형 확률분포
- 지수분포
- 평균 소요시간이 μ인 사건이 발생하기까지 걸리는 소요시간
- f(x)=μ1e−μ1x
- 정규분포
- f(x)=2πσ21e−2σ2(x−μ)2
통계적 추론
- 점추정(Point estimation)
- 추정량을 통해 모수를 추정
- 예) Xˉ,s2 -> μ,σ2
- 구간 추정(Interval estimation)
- 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 제시
- 신뢰수준과 구간의 길이는 반비례
통계적 검정
- 귀무가설(H0)
- 대립가설의 반대가설
- 귀무가설이 아니라는 충분한 증거를 데이터로부터 보임으로써 대립가설을 입증
- 귀무가설 하에서 통계량의 분포를 아는 것이 검정의 핵심
오류의 종류
- 1종 오류
- 귀무가설이 맞을 때, 귀무가설을 기각하는 오류
- 2종 오류
- 귀무가설이 틀렸을 때, 귀무가설을 기각하지 않는 오류
검정통계량, 기각역
- 검정 통계량
- 표본에서 구해낼 수 있는 함수
- 이 값을 기준으로 귀무가설 기각여부를 결정
- 기각역
- 검정통계량이 취하는 구간 중 귀무가설을 기각하는 구간
- 단측검정
- H1:μ>μ0
- 양측검정
- H1:μ=μ0
유의확률
- 유의확률(P-value)
- 주어진 검정통계량값을 기준으로 해당 값보다 대립가설을 더 선호하는 검정통계량 값이 나올 확률
- 이 값이 유의수준보다 낮으면 귀무가설을 기각
검정통계량과 관련된 분포
- Z통계량
- 귀무가설: X의평균이 μ0이다
- Z=nσ2Xˉ−μ0∼N(0,1)
- 이 때 관측치의 수가 충분하다면(30개 이상) σ2을 s2으로 대체 가능
- t분포
- t=ns2Xˉ−μ0∼t(n−1)
- 자유도가 커질수록 정규분포에 근사
- 카이제곱 분포
- Z∼N(0,1)일 때,
- Z2∼X(1)2,∑i=1kZi2∼X(k)2
- f(x;k)=2k/2r(k/2)1xk/2−1e−x/2
- 확률변수의 제곱합으로 이루어진 통계량
- F분포
- 두 확률변수 V1,V2가 자유도 k1,k2이고 서로 독립인 카이제곱 분포를 따를 때,
- F=v2/k2v1/k1∼F(k1,k2)
- 확률변수의 제곱합을 관측치로 나눈 것의 비율로 이루어진 통계량
머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y