2강 Introduction to Statistics

고독한 키쓰차·2020년 10월 22일

통계학

목록 보기

2/8

해당 내용은 MIT 강의 Statistics for Applications by Philippe Rigollet 를 보고 기억하고 싶은 내용을 적은 글 입니다.

Parameter : 전체 population의 대표값
Statistics : Sample 에 대한 대표값
ex) 전체 인구에 대한 남성 평균키 -> parameter
parameter 를 이용하여 대한민국 남성 평균키를 전수조사를 하지않고 구하는 경우에 대한민국 남성 평균키는 statistics 가 됨

$P(|x - E[X]| \leq k \times \sigma ) \leq \frac{1}{k^2}$

(식은 Markdown 입히기가 너무 귀찮아서... 조금 대충 썼습니다. )

Parameter(mean, standard deviation) 가 fit 되어 있을때, 구간에 대한 확률을 구할때 사용되어짐
ex)
어느 고속도로의 차량 진입 평균이 100, 표준편차가 10 인 경우 80~120대의 차량이 들어올 확률은?
(100 - 10k <= Y <= 100 + 10k) >= 1 - 1/k^2
k = 2 , prob = 3/4

$P(x \geq \alpha ) \leq \frac{E(X)}{\alpha}$

음수가 아닌 함수의 Random variable 에서 상한선을 알고싶을때 사용
ex)
음식점에 손님이 평균적으로 30명 온다. 만약 손님이 50명 이상 올 확률은?
답: $P(x \geq 50 ) \leq \frac{30}{50}$

(WLLN(The weak ~), SLLN(The Strong~) 두 종류가 있는데, 전체적인 뉘앙스만 잡는걸로..!)

가설 검증의 기반이 될 수 있음 (안전장치, N이 커질경우 정규분포를 따른다)
모집단의 분포와 상관없이 충분히 큰 표본을 추출하면 mu, sigma^2/n 인 정규분포에 수렴
ex) 모집단의 분포가 mu, sigma^2 일 경우에 표본에대한 분포가 위와같이 따른다는 말

Sample 에 대한 결과값(평균, 편차)(Statistics)가 모집단에 대한 값들과(Parameter) 얼마나 비슷해지는지 혹은 얼마나 틀렸는지 알려주는것 (고정된 분류기에 한해)

For any sample size $N$ , $\epsilon > 0$ , and number of hypothesis $M$
$Pr(|\hat{\mu} - \mu| > \epsilon) \le 2Me^{-2\epsilon^2N}$
동전 던지기를 할때 그 동전이 biasd 인지 unbiased 인지 확신할 수는 없다. 왜냐면 동전의 무게라던지 평평한 정도라던지 과학적으로 조사를 해 볼수는 없으니까. 그래서 실제 1000번을 해보았고, 결과가 750번이 앞면이 나왔다면, 5%의 오차로 내가 틀릴 확률이 1.3%미만이다. 내가 얻은 샘플로 실제의 모집단을 판단 하는것

Data Scientist or Gourmet