Statistics week2가 더 중요
(Linear Algebra week3 선형대수는 데이터 분석가의 기본, 모르면 창피한 정도)
그러나 week2 통계적인 지식은 필수적으로 응용할 수 있어야 함
가설검정은 어떻게 세우는가?
검증하고 싶은 것 -> 대립가설
그 반대 -> 귀무가설
H0: default값
Ha: 증거(data)를 통해 null을 어떻게 reject할것인가
ex1)
A페이지(old)
B페이지(new)
test: B가 클릭을 더 많이 하는가?
- H0: A > B
- Ha: A < B
=은 어디로 갈까?? ->H0
왜? 클릭 수가 같다면 new를 도입할 필요 없기 때문
(내일 테스트는 이런 내용)- +) 이건 원사이드 테스트!
A가 B보다 작거나 크다 -> one
A와 B가 같거나 같지 않다 -> two
ex2)
p-value 0.1이라면?
alpha = 0.05
귀무가설 기각할 수 없다.
p > a
(pval 구하고 해석하는 것까지)
z-value 란?
confidence interval 95% 일때 1.96 x 값
z-test vs t-test -> 샘플 사이즈에 따른 차이
z-test는 데이터의 수가 충분히 클때 진행
신뢰구간
range안에 들 확률이 xx%이다.
통계적으로 유의하다?
test는 샘플을 통해 진행하는 것
sample <-population의 일부
샘플을 통해 어떠한 결과를 냈다
but, product의 결과는 반대일 수 있다.
why?
통계적으로 유의하다
=샘플을 통해 전체를 대표할 수 있다
Ha를 채택한다
=샘플의 특성인 Ha를 population에도 일반화할 수 있다.
추정 통계치
statistics을 population에 적용할 수 있는가?
가설검정을 통해 확인
law of large numbers
샘플링을 할 때 큰 수를 가져오는 것이 좋다.
이 선택의 수학적 근거는 대수의 법칙이 있다.
chi-square table 보는 법
카이스퀘어값을 구하고, 자유도를 구한다.
ex. note x^2 통계치의 계산식)
x^2 = 0.3125
df = 5
1. table에서 df찾는다.
2. x값 찾아본다. (0.297<x^2<0.554)
3. 예시에서는 p-value가 0.99 보다 작다.
카이스퀘어 쓰는 이유?
normal distribution을 쓸 수 없기 때문에
수작업을 한다고 생각하면 된다.
표준화
range를 일정하게 가져감 ex)0~1
사전분포-> 데이터에 의한 업데이트 =>사후분포
한정적인 데이터에서 새로운 데이터가 들어왔을 때,
효율적으로 셋팅을 바꿔주는 것
지금 갖고 있는 데이터 -> 사전분포
새로운 데이터 -> 업데이트
결합된 데이터 -> 사후분포
통계치를 버리는 것이 아닌, 점점더 정확한 값으로 가는 것
분포로 함수를 만든다. 그 함수가 업데이트 된다.
ex)
사전확률: 암에 걸릴 확률이 1%이다.
데이터 (<-테스트): p(positive|cancer) = 90%
암에 걸릴 확률에서 정확하게 나올 확률이 90%이다.
-> p(negative|cancer) = 10% , p(negative|cancer^)
- p(cancer|positive) : 테스트로 알수 없는 확률
positive한 사람들 중 암이 있을 확률은 테스트로 알기 어렵다.