Q . 기술 통계란?
A . 수집한 데이터를 요약 묘사 설명하는 통계 기법
- Descriptive(기술) : 묘사하다, 그려서 설명하다
Mean / Median / Mode
Range
Var / SD
Kurtosis
Skewness
Q . 추리 통계란?
A . 수집한 데이터를 바탕으로 추론 예측하는 통계 기법. Sample을 추출하여 통계 추리해 전체를 추론한다.
- Inferential(추리) : 무엇을 추론하다
Simple Random Sampling
모집단에서 sampling을 무작위로 하는 방법Systematic Sampling
모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법 ex) 5, 10, 15, 20, ... 번째 데이터 선택Stratified Random Sampling
모집단에서 미리 그룹을 나누고, 그 그룹에서 무작위로 추출하는 방법 ex) 나이대별로 나누고 해당 그룹에서 추출Cluster Sampling
모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법Q . 가설 검정이란?
A . 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정이다.
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정한다.
- '통계적으로 유의하다'란?
Q . 샘플의 사이즈가 결과에 미치는 영향은?
A . 샘플의 사이즈가 클수록 무작위성을 고려하더라도 더 높은 신뢰성을 얻는다.
표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함
SE : 표본평균의 표준 오차
s : 표본의 표준편차 ( sample standard deviation )
n : 표본의 수 ( sample size )
귀무가설 vs 대립가설
- 귀무가설
- 내가 틀렸다는 주장
- 이 가설을 처음부터 버릴 것이 예상되는 가설
- 설정한 가설이 진실할 확률이 극히 적은 가설
- 우리가 알고싶은 모집단의 특성에 대한 잠정적 주장, 보편적으로 알려진 기존의 사실
- 대립가설
- 내가 증명하고 싶은 내용
- 지금까지 알려진 내용, 사실에 대한 반박으로 확실한 증거를 제시해야 채택되는 가설
- 귀무가설의 기각으로 채택되는 가설
- 표본에 나타난 특징이 모집단에도 적용될 거라는 주장
1. 귀무 가설 (Null Hypothesis) 를 설정
2. 대립 가설 (Alternative Hypothesis) 를 설정
3. 신뢰도를 설정 (Confidence Level)
4. P-value를 확인
5. P-value를 바탕으로 가설에 대해 결론을 내림
Q . One-Sample t-test란?
A . 1개의 sample 값들의 평균이 특정값과 동일한지 비교한다.
from scipy import stats
# ttest_1samp('Sample 데이터', '비교하려는 값')
stats.ttest_1samp(coinflips, .5)
One-side test vs Two-side test
one-side : 샘플 데이터의 평균이 'X' 보다 '크다 혹은 작다' / '크지 않다 작지 않다'를 검정
two-side : 샘플 데이터의 평균이 'X'와 '같다 / 같지 않다'
Q . Two-Sample t-test란?
A . 2개의 sample 값들의 평균이 서로 동일한지 비교한다.
- two-side( tail / direction ) test