추리통계 기본개념
keyword - 경우의수, 확률, 이항분포, 정규분포, 기댓값
경우의수 (Number of case)
- 계승(Factorial) : 각기다른 n개의 사물을 순서대로 배열하는 경우의 수
n!=n(n−1)(n−2)⋯3⋅2⋅1
0!=1
- 순열(Permutation) : 각기다른 n개의 사물중 k개를 순서대로 배열하는 경우의 수
- (n-k)!번 중복된 경우를 나눈다 보면 됨
nPk=Pkn=(n−k)!n!
nPn=n!
nP0=1
- 조합(Combination) : 각기다른 n개의 사물중 k개를 순서 상관없이 뽑는 경우의 수
- 순열 조합에서 k!번 중복된 경우를 나눈다 보면 됨
nCk=(n−k)!n!⋅k!1=(n−k)!k!n!
nCk=nCn−k
nC0=1
확률(Probability)
-
확률(Probability) : 모든사건의 경우의수 중 특정사건의 경우의수의 비율
P(A)=모든사건이일어나는경우의수A사건이일어나는경우의수
0≤P(A)≤1
P(A)+P(A^)=1
-
사건(Event)
- 독립사건 : 한 사건이 다른사건이 일어날 확률에 영향을 주지 않는 사건
복원추출
P(E1⋂E2)=P(E1)P(E2)
- 종속사건 : 한 사건이 다른사건이 일어날 확률에 영향을 주는 사건
비복원추출
- 배반사건 : 두 사건이 동시에 일어나지 않음
P(E1⋂E2)=0
-
조건부확률(Conditional probability)
- A사건이 일어난 후 (조건) B사건이 일어날 확률(곱셈법칙적용)
P(A⋂B)=P(A)⋅P(B∣A)
P(B∣A)=P(A)P(A⋂B)
-
베이즈 정리(Baysian Theorem)
- 두 확률 변수릐 사전 확률과 사후 확률사이의 관계를 나타내는 정리
- P(A) = 사전확률(prior); 사건 B가 일어나기 전에 가지고있던 A의 확률
- P(B|A) = 가능도(likelihood); 사건A가 발생한 후 사건 B의 확률
- P(A|B) = 사후 확률(posterior); 사건B가 발생한 후 사건 A의 확률
- P(B) = 증거(Evidence);정규화 상수; 확률 크기를 결정함
P(A∣B)=P(B)P(A⋂B)=P(B)P(B∣A)P(A)=P(B∣A)P(A)+P(B∣Ac)P(Ac)P(B∣A)P(A)
- 즉, P(A),P(B∣A),P(B∣Ac)를 알면 P(A|B)를 계산할 수 있다
이항분포(Binomial distribution)
- 베르누이 과정(bernoulli process) : 동전 던지기(앞,뒤)처럼 2가지의 결과를 가지는 사건(binary event)에서 다음 세가지 조건을 충족하는 과정
1. 모든 사건은 상호 배반적 (앞면과 뒷면은 동시에 나타나지 않음)
2. 각 시행은 독립적 (다음시행에 영향 X)
3. 각 시행의 확률은 불변 (앞면과 뒷면이 나올 확률은 불변)
- 이항분포(Binomial distribution) : 베르누이 과정에 의한 확률 분포
- 베르누이 과정 충족 조건하에 동일한 시행을 n번 할때 한 사건이 r번 일어날 확률
P(X=r)=nCr⋅pr⋅qn−r
n : 독립시행 횟수
r : 특정사건이 일어나는 횟수
p : 특정사건이 일어날 확률
q : 1-p
- 이항분포의 평균 μ=np
- 이항분포의 분산 σ2=npq
- np>5 & nq>5 조건을 만족시키면 이항분포는 정규분포의 형태를 이룬다.
- n=1인 경우엔 베르누이 분포(bernoulli distribution)
정규분포(Normal distribution)
- (참고)정규분포의 확률밀도함수
f(X)=2πσ1e2σ2−(X−μ)2
- μ : 모집단 평균
- σ : 모집단 표준편차
- π : 원주율(3.14159⋯)
- e : 지수(exponential)(2.71828⋯)
- 정규분포의 특징
- 연속변수
- 평균 = 중앙값 = 최빈값
- 단봉분포(unimodal)
- 좌우대칭
- 면적 = 1
- 분포 N(μ,σ2)
- μ±1σ에 68.26%가 존재
- μ±2σ에 95.44%가 존재
- μ±3σ에 99.72%가 존재
- 표준정규분포(standard normal distribution)
- 다양한 형태의 정규분포를 유일한 하나의 분포로 만든것
- Z분포로도 불림
Z=σX−μ
- (참고) 표준정규분포 확률밀도함수
f(Z)=2π1e−2Z2
기댓값(Expectation)
- 각 사건이 벌어졌을 때의 이득과 그 사건이 일어날 확률을 곱한 것을 전체 사건에대해 합한 값
- 이론적 통계에서 매우 중요한 개념
- 비연속 변수 Y에 대한 변수Y의 기댓값
E(Y)=i∑yipi
- 연속 변수 Y에 대한 변수 Y의 기댓값
E(Y)=∫−∞∞yf(y)dy
이때, (∫−∞∞f(y)dy=1.0)
- 전이법칙(가산성)
E(Y±C)=E(Y)±C
Var(Y±C)=Var(Y)
- 척도법칙(동차성)
E(CY)=C⋅E(Y)
Var(CY)=C2⋅Var(Y)
- 평균과 분산
μY=E(Y)
σY2=E(Y2)−[E(Y)]2
- (참고) 평균과 분산의 기댓값 증명
μY=N1ΣY=ΣYP=E(Y)
σY2=NΣ(Yi−μ)2=NΣ(Yi2−2Yiμ+μ2)=NΣYi2−μY2=E(Y2)−[E(Y)]2