해당 내용은 MIT 강의 Statistics for Applications by Philippe Rigollet 를 보고 기억하고 싶은 내용을 적은 글 입니다.
Parameter vs Statistics
- Parameter : 전체 population의 대표값
- Statistics : Sample 에 대한 대표값
ex) 전체 인구에 대한 남성 평균키 -> parameter
parameter 를 이용하여 대한민국 남성 평균키를 전수조사를 하지않고 구하는 경우에 대한민국 남성 평균키는 statistics 가 됨
Chebyshev's Inequality
P(∣x−E[X]∣≤k×σ)≤k21
(식은 Markdown 입히기가 너무 귀찮아서... 조금 대충 썼습니다. )
- Parameter(mean, standard deviation) 가 fit 되어 있을때, 구간에 대한 확률을 구할때 사용되어짐
ex)
어느 고속도로의 차량 진입 평균이 100, 표준편차가 10 인 경우 80~120대의 차량이 들어올 확률은?
(100 - 10k <= Y <= 100 + 10k) >= 1 - 1/k^2
k = 2 , prob = 3/4
Markov's Inequality
P(x≥α)≤αE(X)
- 음수가 아닌 함수의 Random variable 에서 상한선을 알고싶을때 사용
ex)
음식점에 손님이 평균적으로 30명 온다. 만약 손님이 50명 이상 올 확률은?
답: P(x≥50)≤5030
Law of Large Number
(WLLN(The weak ~), SLLN(The Strong~) 두 종류가 있는데, 전체적인 뉘앙스만 잡는걸로..!)
- 통계 사고의 기본적인 전제가 됨
- 큰 모집단에서 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 수 있다. (전체를 안봐도 추정 가능)
Central Limit Theorem
- 가설 검증의 기반이 될 수 있음 (안전장치, N이 커질경우 정규분포를 따른다)
- 모집단의 분포와 상관없이 충분히 큰 표본을 추출하면 mu, sigma^2/n 인 정규분포에 수렴
ex) 모집단의 분포가 mu, sigma^2 일 경우에 표본에대한 분포가 위와같이 따른다는 말
Hoeffding's Inequality
- Sample 에 대한 결과값(평균, 편차)(Statistics)가 모집단에 대한 값들과(Parameter) 얼마나 비슷해지는지 혹은 얼마나 틀렸는지 알려주는것 (고정된 분류기에 한해)
For any sample size N, ϵ>0, and number of hypothesis M
Pr(∣μ^−μ∣>ϵ)≤2Me−2ϵ2N
- 동전 던지기를 할때 그 동전이 biasd 인지 unbiased 인지 확신할 수는 없다. 왜냐면 동전의 무게라던지 평평한 정도라던지 과학적으로 조사를 해 볼수는 없으니까. 그래서 실제 1000번을 해보았고, 결과가 750번이 앞면이 나왔다면, 5%의 오차로 내가 틀릴 확률이 1.3%미만이다. 내가 얻은 샘플로 실제의 모집단을 판단 하는것