2일차 얘기 시작.
https://github.com/wakexmango/wakexmango
패스트캠퍼스[나의 커리어 치트키 데이터 분석 유치원]-챕터4_통계 실험과 유의성 검정
내가 세운 가설이 통계적으로 유의미한 것임을 확인하는 것
순서 ##
귀무가설 (Null)
대립가설(Alternative)
< p-value >
출처 : https://www.simplypsychology.org/
p-value가 0.05의 값을 기준이라면,
데이터의 분석을 통해서 p-value의 값이 만약 0.001이 나오게 된다면, 귀무가설이 일어날 일이 현저히 적기 때문에, 귀무가설을 기각하고서, 대립가설을 채택한다.
방향성을 기준으로 단축(한 방향), 양측(방향성은 모르지만 차이가 있을 경우)
단축검정
양측검정
1종 오류 - FP - 재현율
2종 오류(1종 보다 더 심각한 오류) - FN - 민감도
모집단을 대표하는 표본으로부터 추정된 분산(표준편차)를 가지고
두 모집단의 평균간의 차이는 없다 - 귀무가설,
두 모집단이 평균 간에 차이가 있다 - 대립가설 둘중 하나를 선택하는 검정
t-value = 표준오차 / 표본 평균 사이의 차이(두 집단의 평균)
등분산성 가정
p-value를 확인 (levene 파이썬 라이브러리)
분산이 서로 같다. 귀무가설
분산이 서로 다르다. 대립가설
등분산성에 따라서는 p-value를 확인하면서 0.05보다 크면 귀무가설이 채택될 수 있다.
분산분석(ANOVA) 후 사후분석을 한다.
F분포 = 집단 간 분산 / 집단 내 분산
등분산성의 가정 => 집단 내 분산이 서로 비슷한가? (비슷해야 비교가 가능)
정규성 검정
정규분포를 따르는 지 확인하기 (shapiro 파이썬 라이브러리) p-value가 0.05보다 커야함.
등분산성 검정
분산이 비슷한지 확인하기 (leven 파이썬 라이브러리) p-value가 0.05보다 커야함.
최종
일원 분산은 stats.f_oneway(집단3개) - p-value가 0.05보다 적다면 대립가설이 채택됨(우리가 새롭게 주장한 것, 집단 3개가 서로 차이가 있다.)
사후 분석(post-hoc)
paiwise_tukeyhsd(집단의 value, 집단) 파이썬 라이브러리
p-adj(=p-value)이므로 0.05보다 작아야 우리의 대립가설이 채택이 유의미한 것.
A/B테스트에 활용됨
귀무가설 : 유저a와 유저b가 c페이지에 진입하는 것이 관련이 없다.
대립가설 : 유저a와 유저b가 c페이지에 진입하는 것이 관련있다.
표를 작성해야하고
왼쪽 열이 유저들, 행이 페이지 진입하는지 안하는 지
독립성 검정 : 두 변수가 서로 연관성 있는 지
적합성 검정 : 실제 표본이 내가 가정한 분포와 같은지
동일성 검정 : 두집단의 분포가 같은가
round-off 문제
파이썬에서 0에 가까운 값을 더할때, 0.0000005 이런식으로 아주 작은 값을 더하는 문제들이 발생한다는 점이 있다.
추론과 예측
추론 : 데이터를 이해. 데이터의 크기 작음, 데이터를 보고 이해가능성 큼, 미래를 추론이니 과거 데이터에 중점
예측 : 결과만 요구됨. 데이터의 크기 큼, 데이터를 보고 이해가능성 작음, 과거보다는 미래를 잘 맞추는 것에 중점
<통계적 가정>
평균 비교(two-sample t-test)의 가정
- 이상치가 없음, 두 집단의 분산이 비슷하고, 집단 내의 각 관측치는 같은 분포, 순서에 영향이 없어야 한다.
<통계적 가정의 의미>
모수
<베이지안> - 현대통계학
데이터를 가지고, 모수가 어떤것이라 가정하는 prior, 이를 통해 posterior를 업데이트 하는 방식.
e == Data(D)
P(e|H) = H(귀무가설)를 가정했을때, 데이터(e)가 나올 확률
최대 Likelihood = 무한하게 많은 H(가설)중에 데이터를 가장 잘 설명하는 가설을 뽑는 것
A/B테스트 - hackle ab test(베이지안통계), 쿠팡 플랫폼
추정량 (확률변수임)
<편향-분산>
<구간 추정과 p-value>
< MLE >
데이터로부터 모수를 추정하는 것
; = given 주어지는 것
< Likelihood >
개념 - 데이터로부터 모수를 구한다는 현대통계학.
(θ ; ) 오른쪽이 데이터
수식 - 모수로부터 데이터가 나올 확률이라는 고전 통계학임.
x1, x2, ..., xn$ ; θ) 오른쪽이 모수
가능도 함수, 관측된 데이터를 고정한 상태에서 세타를 변수로 생각한다. 우도를 최대화 하는 세타를 찾는 것이 목표임. 상황이 독립이라 모두 곱함.
< 최대 Likelihood >
< 몬테카를로 MonteCarlo>
<부트스트랩>
주어진 자료가 특정한 가설을 충분히 뒷받침 하는지 여부를 결정하는 통계적 추론 방법임.
오차에 제곱을 하는 이유 (MSE, RMSE)
<T-test의 한계>