가설 검정

혜쿰·2023년 11월 8일
0
post-thumbnail

가설 검정(hypothesis testing)은 통계학에서 중요한 개념 중 하나로, 어떤 주장(가설)을 검증하기 위한 통계적 분석 방법이다. 주로 두 가지 가설, 귀무가설(null hypothesis, H0)과 대립가설(alternative hypothesis, H1),을 비교하여 주어진 데이터로부터 특정 가설이 참이라고 주장하는지 아니면 거짓이라고 주장하는지를 결정하는 데 사용된다.

📘 귀무가설과 대립가설

  • 귀무가설 (H0): 귀무가설은 일종의 '디폴트' 가설로, 일반적으로 기존의 관례 또는 이전 연구 결과를 기반으로 하는 가설로, 어떤 효과가 없다 또는 차이가 없다고 주장하는 가설이다.
  • 대립가설 (H1): 연구자가 주장하고 싶은 가설로, 특정 효과가 있다 또는 차이가 있다고 주장하는 가설이다.

1.귀무가설 기각

  • 가설 검정에서 귀무가설을 기각하면, 귀무가설이 틀렸다고 의미다. 이는 데이터가 귀무가설과 모순되는 결과를 나타내는 경우에 이루어진다. 즉, 통계적으로 유의미한 증거가 귀무가설을 부정하는 방향으로 나타났을 때 귀무가설을 기각한다.
  • 예를 들어, "약 A의 효과가 없다"는 귀무가설이 있다면, 해당 약을 테스트한 결과가 유의하게 효과가 있다는 방향으로 나타난다면 귀무가설을 기각한다.

2. 귀무가설 채택

  • 가설 검정에서 귀무가설을 채택하면, 귀무가설이 참일 가능성이 높다는 뜻이다. 이는 데이터가 귀무가설과 모순되지 않거나 귀무가설을 받아들이는 방향으로 나타났을 때 이루어진다.
  • 예를 들어, "두 그룹 간의 차이가 없다"는 귀무가설이 있다면, 두 그룹 간의 평균값의 차이가 통계적으로 유의미하지 않다면 귀무가설을 채택한다.

3. 대립가설 기각

  • 가설 검정에서 대립가설을 기각하면, 대립가설이 틀렸다는 뜻이다. 즉, 데이터가 귀무가설과 모순되지 않는다는 것을 나타낸다. 이는 통계적으로 유의미한 증거가 대립가설을 받아들이는 방향으로 나타났을 때 이루어진다.

4. 대립가설 채택

  • 가설 검정에서 대립가설을 채택하면, 대립가설이 받아들여진다는 것을 의미한다. 데이터가 대립가설을 지지하고 귀무가설과 모순될 때 대립가설을 채택한다.

가설을 채택할지 기각할지는 유의수준(alpha)과 p-값을 고려하여 이루어진다. 유의수준은 가설을 기각 또는 채택하는 기준을 나타내며, 일반적으로 0.05 또는 0.01로 설정된다. p-값은 데이터가 귀무가설을 지지하는 정도를 나타내며, 작을수록 귀무가설을 기각할 경향이 높다.

📘 가설 검정의 단계

앞서 설명한 개념을 단계적으로 다시 설명해보려고 한다.

1. 가설 설정

  • 앞서 설명했던 귀무가설과 대립가설을 설정한다.

2. 표본 추출 및 데이터 수집

  • 연구자는 데이터를 수집하거나 표본을 추출하여 가설을 검정할 데이터를 준비한다.

3. 통계적 검정

  • 데이터 분석을 통해 귀무가설을 검정한다. 이때 사용되는 통계 검정 방법은 연구 디자인, 데이터 유형 및 가설에 따라 선택된다. 일반적으로 통계 검정은 표본 데이터를 사용하여 모집단에 대한 결론을 도출하는 과정이다.

4. 통계량 계산 및 유의수준 설정

  • 통계량(예: t-통계량, z-통계량, 카이제곱 통계량...)을 계산하고, 연구자는 유의수준(알파, alpha)을 설정한다.

5. 가설 검정 및 결정

  • 계산된 통계량과 설정한 유의수준을 비교하여 귀무가설을 기각하거나 기각하지 않는다(채택). 만약 통계량이 유의수준보다 작거나 같으면 귀무가설을 기각하지 않으며(채택), 그렇지 않으면 귀무가설을 기각한다.

6. 결론

  • 가설 검정의 결과를 해석하고 결론을 도출한다. 귀무가설을 기각하면 대립가설을 지지하는 증거가 있다는 것을 의미하며, 귀무가설을 기각하지 않으면 그 가설이 지지되는 것을 의미한다.

📘 1종 오류와 2종 오류

어느 가설 검정도 100% 확실하지는 않다. 검정은 확률을 기반으로 하기 때문에 항상 잘못된 결론을 내릴 가능성이 있다. 가설 검정을 수행하는 경우 제1종 오류와 제2종 오류 등 두 가지 유형의 오류가 발생할 가능성이 있다. 이 두 오류의 위험은 역의 관계가 있으며 검정의 유의 수준 및 검정력에 의해 결정된다. 따라서 위험을 정의하기 전에 어느 오류가 상황에 더 심각한 결과를 초래하는지 확인해야 한다.

1. 제1종 오류

귀무 가설이 참인데 기각하면 제1종 오류를 범하는 것이다. 제1종 오류를 범할 확률은 α로, 가설 검정에 대해 설정한 유의 수준이다. α가 0.05이면 귀무 가설을 잘못 기각할 가능성이 5%임을 나타낸다. 이 위험을 낮추기 위해서는 더 낮은 α 값을 사용해야 한다. 그러나 더 낮은 알파 값을 사용하면 실제로 존재하는 실제 차이를 탐지할 가능성이 더 적다. 그렇기 때문에 귀무 가설이 실제로는 참이어서 채택해야 함에도 불구하고 표본의 오차때문에 이를 채택하지 않는 오류가 생길 수 있다. 이를 제 1종 오류라고 한다.

2. 제2종 오류

귀무 가설이 거짓인데 기각하지 않으면 제2종 오류를 범하는 것이다. 제2종 오류를 범할 확률은 β로, 검정의 검정력에 따라 달라진다. 검정력을 충분하게 설정함으로써 제2종 오류를 범할 위험을 줄일 수 있다. 실제 존재하는 차이를 탐지할 수 있을 정도로 표본 크기를 크게 만들면 된다.
거짓인 귀무 가설을 기각할 확률은 1–β와 같다. 이 값은 검정의 검정력이다.

📘 가설 검정의 종류

1. t-검정 (Student's t-test)

  • 평균 비교를 위한 가설 검정이다. 주로 두 그룹 간의 평균 차이가 통계적으로 유의미한지를 판단하는 데 사용된다.
  • 종류:
    • 독립 표본 t-검정: 두 독립된 그룹 간의 평균 차이를 비교한다.
    • 대응 표본 t-검정: 동일한 그룹의 서로 다른 시간대 또는 조건에서의 평균 차이를 비교한다.

2. 카이제곱 검정 (Chi-Square Test)

  • 범주형 데이터 간의 독립성 검정을 위한 가설 검정이다. 두 변수 간의 관계가 통계적으로 유의미한지를 판단하는 데 사용된다.
  • 종류:
    • 독립성 검정: 두 범주형 변수 사이의 독립성 여부를 확인한다.
    • 적합도 검정: 실제 관찰값과 기대값 간의 차이를 확인하여 분포의 적합성을 평가한다.

3.ANOVA (Analysis of Variance)

  • 세 개 이상의 그룹 간의 평균 비교를 위한 가설 검정이다. ANOVA는 평균 간의 차이가 통계적으로 유의미한지를 판단하는 데 사용된다.
  • 종류:
    • 일원배치 분산분석: 한 요인(독립 변수)을 고려한다.
    • 이원배치 분산분석: 두 요인을 고려한다.
    • 다원배치 분산분석: 두 개 이상의 요인 및 상호작용 효과를 고려한다.

4. 회귀 분석 (Regression Analysis)

  • 변수 간의 관계 및 예측 모델을 검정하기 위한 가설 검정이다. 선형 회귀, 로지스틱 회귀, 다중 회귀 등 다양한 회귀 분석 기법이 존재한다.

5. 비모수 검정 (Nonparametric Tests)

  • 데이터가 정규분포를 따르지 않거나 데이터의 척도 수준이 순위 또는 범주형일 때 사용되는 가설 검정이다. 예를 들어, Wilcoxon 부호순위 검정, 크루스칼-왈리스 검정 등이 있다.

6. 이항 검정 (Binomial Test)

  • 이항 분포를 따르는 이진 변수의 성공 확률에 대한 가설 검정이다. 주로 범주형 데이터에 대한 검정에 사용된다.

7. 생존 분석 (Survival Analysis)

  • 시간에 따른 사건 발생률을 분석하는 가설 검정으로, 주로 의학 및 생명과학 분야에서 사용된다.

8. 다중 가설 검정 (Multiple Hypothesis Testing)

  • 여러 개의 가설을 동시에 검정하고 오류를 통제하기 위한 다중 가설 검정 방법이 존재한다. 예를 들어, Bonferroni 수정, FDR(위약율 통제), 등이 있다.

이외에도 다양한 가설 검정 방법과 유형이 있으며, 연구 문제와 데이터 유형에 따라 적절한 가설 검정 방법을 선택해야 한다. 가설 검정은 통계적 추론의 중요한 부분이며, 연구 결과의 신뢰성을 높이고 의사결정에 도움을 줄 수 있는 도구이다.


요번 포스팅에서는 가설검정의 종류에 대해서 간략하게 작성했지만, 다음 포스팅부터 자세한 설명을 써보려고 한다.







1종 오류, 2종 오류 참고 : https://support.minitab.com/ko-kr/minitab/20/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/type-i-and-type-ii-error/
1종 오류, 2종 오류 이미지 : https://drhongdatanote.tistory.com/76

0개의 댓글

관련 채용 정보