Hypothesis Test


Statistics


1. 기술 통계치( Descriptive Statistics )

Q . 기술 통계란?
A . 수집한 데이터를 요약 묘사 설명하는 통계 기법

  • Descriptive(기술) : 묘사하다, 그려서 설명하다
  • boxplot

  • bagplot

  • violin plot

  • df.describe() : count, mean, std, min, 25%, 50%, 75%, max 값을 보여준다.

Mean / Median / Mode
Range
Var / SD
Kurtosis
Skewness

2. 추리 통계치( Inferential Statistics )

Q . 추리 통계란?
A . 수집한 데이터를 바탕으로 추론 예측하는 통계 기법. Sample을 추출하여 통계 추리해 전체를 추론한다.

  • Inferential(추리) : 무엇을 추론하다

2.1 Effective Sampling

  • Simple Random Sampling

    모집단에서 sampling을 무작위로 하는 방법
  • Systematic Sampling

    모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법 ex) 5, 10, 15, 20, ... 번째 데이터 선택
  • Stratified Random Sampling

    모집단에서 미리 그룹을 나누고, 그 그룹에서 무작위로 추출하는 방법 ex) 나이대별로 나누고 해당 그룹에서 추출
  • Cluster Sampling

    모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법

3. 가설 검정

Q . 가설 검정이란?
A . 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정이다.
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정한다.

  • '통계적으로 유의하다'란?

Q . 샘플의 사이즈가 결과에 미치는 영향은?
A . 샘플의 사이즈가 클수록 무작위성을 고려하더라도 더 높은 신뢰성을 얻는다.

3.1 표본 평균의 표준 오차 ( Standard Error of the Sample Mean )

표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함

SE : 표본평균의 표준 오차
s : 표본의 표준편차 ( sample standard deviation )
n : 표본의 수 ( sample size )

3.2 T-test

T-test 과정

귀무가설 vs 대립가설

  • 귀무가설
    • 내가 틀렸다는 주장
    • 이 가설을 처음부터 버릴 것이 예상되는 가설
    • 설정한 가설이 진실할 확률이 극히 적은 가설
    • 우리가 알고싶은 모집단의 특성에 대한 잠정적 주장, 보편적으로 알려진 기존의 사실

  • 대립가설
    • 내가 증명하고 싶은 내용
    • 지금까지 알려진 내용, 사실에 대한 반박으로 확실한 증거를 제시해야 채택되는 가설
    • 귀무가설의 기각으로 채택되는 가설
    • 표본에 나타난 특징이 모집단에도 적용될 거라는 주장

1. 귀무 가설 (Null Hypothesis) 를 설정
2. 대립 가설 (Alternative Hypothesis) 를 설정
3. 신뢰도를 설정 (Confidence Level)

  • 신뢰도 : 모수가 신뢰구간 안에 포함될 확률 (보통 95, 99% 등을 사용)
  • 모수(parameter) 뜻 : 모수는 통계학 용어이다. 어미 모(母)에 숫자 수(數)를 더해 모집단(母집단)의 특징을 나타내는 수치를 뜻한다.
  • 신뢰도 95%란 ? 모수가 신뢰 구간 안에 포함될 확률이 95%이다.
  • 귀무가설이 틀렸지만 우연히 성립할 확률이 5%

4. P-value를 확인

  • p-value란? 주어진 가설에 대해서 얼마나 근거가 있는지에 대한 값을 뜻한다.
  • 0과 1 사이의 값으로 scale한 지표이다.

5. P-value를 바탕으로 가설에 대해 결론을 내림

  • 일반적으로, 0.05를 기준으로 pval = 0.05 보다 작으면 귀무가설은 틀렸다( 기각한다 )
  • 정규화 공식

    평균을 빼고 표준편차로 나눠줌

3.2.1 One-Sample t-test

Q . One-Sample t-test란?
A . 1개의 sample 값들의 평균이 특정값과 동일한지 비교한다.

from scipy import stats

# ttest_1samp('Sample 데이터', '비교하려는 값')

stats.ttest_1samp(coinflips, .5)

One-side test vs Two-side test
one-side : 샘플 데이터의 평균이 'X' 보다 '크다 혹은 작다' / '크지 않다 작지 않다'를 검정
two-side : 샘플 데이터의 평균이 'X'와 '같다 / 같지 않다'

3.2.2 Two-Sample t-test

Q . Two-Sample t-test란?
A . 2개의 sample 값들의 평균이 서로 동일한지 비교한다.

  • two-side( tail / direction ) test


👉 과정 한눈에 보기

profile
기록하지 않으면 기록되지 않는다.

0개의 댓글