가설검정 : 기존 데이터를 보고 가설을 세운 뒤 다른 데이터를 통해서 가설을 확인하는 과정 (충분한 확인 필요)
데이터가 가설이 틀렸다는 강한 증거를 보여줄시 가설이 틀림
데이터가 같지는 않지만 비슷할시 가설이 틀리진 않음
귀무가설
1) 어떤 것의 차이가 거의 없다고하는 가설
2) 아주 많은 수의 가설을 세우는 것보다 효율적
통계검증 : 귀무가설이 틀렸는지에 대한 결정
통계검증이 필요한것 3가지
1) 데이터가 필요
2) 귀무가설 혹은 일차가설
3) 대안가설
대안가설 : 단순히 귀무가설을 반대로 한 것
귀무가설이 전체 평균의 차이라면 대안가설은 각각의 평균의 차이
귀무가설이 틀렸다는 것을 보이는데 실패 -> 과적합된다
여러개의 대상이 있는 경우
1) 대립가설의 선택사항이 생김
2) 대립가설을 통해서 귀무가설이 틀렸는지에 대한 결정가능
3) 하지만 대립가설을 받아들이진 않음 (더 좋은 대립가설이 있을 수 있기에)
p-value
1) 0과 1사이의 값
2) 데이터의 차이를 보여주는 값
3) 0에 가까울수록 차이가 존재
4) 주로 0.05를 이용 (5%실험결과만이 0.05보다 작은 p-value를 생성함을 의미)
5) 결과가 꽤 다르게 나오는 실험에서는 0.01을 이용
6) p-value는 차이의 유무를 언급할 뿐 차이의 크기를 언급하진 않는다.
거짓양성 : 실제론 차이가 없지만 작은 p-value 얻는 것 (위의 0.05가 거짓양성을 의미)
stats.ttest_lsamp(샘플데이터, 비교하려는 값) : t-value와 p-value 추출
two side test : 특정상수 x와 같은지 다른지 (양방향 검증필요)
one side test : 특정상수 x보다 큰지 작은지
stats.ttest_ind(샘플데이터1, 샘플데이터2) : 샘플 여러개일 때 t-value와 p-value 추출
binomial() : 두가지의 결과만 나오게함 (베르누이 분포)
표본 평균의 표준 오차 : s/root(n) s는 표준편차, n은 표본수 , 즉, 표본의 수가 많아질수록 추측은 정확
기술 통계치
1) 데이터를 설명하는 값
2) boxplot으로 시각화 가능
3) bagplot : 두가지의 박스플롯 동시에 봄
4) violin plot : box plot을 개량한 것
왜도 : 분포의 비대칭성
첨도 : 그래프의 뾰족한 정도
추리 통계치 : 일부 데이터를 통해서 추론하여 모집단의 파라미터를 측정하는 것
simple random sampling : 무작위로 샘플링
Systematic sampling : 규칙을 가지고 샘플링
Stratified random sampling : 여러 그룹으로 나누고 그룹별로 무작위 추출
Cluster sampling : 여러그룹으로 나누고 특정그룹을 무작위로 선택