06강. 파이썬을 활용한 통계 검정 - 평균 차이 검정 & 상관 관계 분석

이찬·2023년 8월 29일
0
post-thumbnail

독립표본 t - test 분석 & 대응 표본 t - test 분석

t 검정 (t-test)

모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법
“두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.

t 값 (t-value)

t값이란 t 검정에 이용되는 검정통계량으로, 두 집단의 차이의 평균(X)을 표준오차(SE)로 나눈 값 즉, [표준오차]와 [표본평균사이의 차이]의 비율이다.

t 분포 (t-distribution)
평균이 0, 좌우 대칭을 이루며, 자유도(n-1) υ에 의해서 규정되는 수리적 분포로 왼쪽 그림과 같은 형태를 띤다. t값이 커질 수록 표준정규분포와 같은 형태를 띤다. 자유도와 영역 넓이에 따른 t값은 t분포표(오른쪽 그림)를 참조하여 t 값을 찾는다.

Critical Region

귀무가설이 기각되기 위한 검정통계량(t값)이 위치하는 범위로, 면적=α (유의수준)과 자유도(n-1)에 의해 결정된다. 단측검정(one-tailed test)의 경우 기각역이 한 쪽에 존재하고, 양측검정(two-tailed test)의 경우 기각역이 양쪽에 존재한다.

t 검정 (t - test)의 특징

  • 독립된 두 집단 (또는 대응표본t검정의 경우에는 한 집단)의 평균 차이가 있는지를 검사하는 방법이다.
  • 30개 이하의 비교적 적은 수의 표본에 대해 활용한다.
    (표본의 수가 31 이상이면 정규분포와 비슷해지기 때문에 t분포 대신 정규분포를 사용해도 괜찮다. 물론 정규분포와 일치하지는 않다. 대부분의 t분포표가 표본이 30인 경우까지만 표시하고 있기 때문에 표준정규분포표를 이용하기도 한다.)
  • 모집단의 표준편차를 알 수 없을 때 사용한다. 따라서 모집단의 표준편차 σ 대신 표본의 표준편차 s 를 사용한다.
  • 독립 표본으로부터 추출된 연속형 자료가 정규성을 만족하면서, 동일한 분산일 때에는 스튜던트 t 검정(Student's t-test)을 실시한다.
  • 대응 표본으로부터 추출된 연속형 자료가 정규성을 만족할 때에는, (동일집단이므로 분산은 동일)
    대응표본 t 검정(Paired t-test)을 실시한다.

seaborn 라이브러리

#라이브러리 임포트
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
#seaborn에서 제공하는 flights 데이터 셋을 사용
flights = sns.load_dataset('flights')
#그래프 사이즈 설정
plt.figure(figsize=(12, 3))

Simpson's paradox

  • 심슨의 역설 @ https://j.mp/31Kd6v7 & https://j.mp/3IswbTj
  • 사례로 알아보는 심슨의 역설 @ https://j.mp/3ICKS6q
    => 전체로 놓고 보면, 어떤 추세가 있는데, 부분적으로 보면 이와는 반대의 추세를 가지는 경향이 있는 경우, 전체 data를 부분으로 나누어서 보는 것도 중요하다.
profile
Kyunghee univ. IE 21

0개의 댓글

관련 채용 정보