가설검정(Hypothesis Testing)

수현·2024년 1월 10일
1

Statistics

목록 보기
2/7
post-thumbnail

가설검정은 특정가설이 사실인지 아닌지를 결정하기 위해 표본 데이터를 사용한다. 일반적으로 다음과 같은 단계로 이루어진다.

1. 가설 설정

귀무가설(Null Hypothesis, H0)

  • 귀무가설은 기본적인 가정으로, 검증하고자 하는 주장과 반대되는 주장이다.

  • 일반적으로 "변화가 없음", "효과가 없음", "두 집단간 차이가 없음"과 같은 상태를 나타낸다.

  • 목적: 귀무가설은 통계적으로 검증하기 위한 기준점을 제공한다. 이를 통해 얻은 데이터가 이 기준점과 얼마나 다른지 평가할 수 있다.

  • 예시: "새로운 약이 기존 약보다 효과가 더 좋지 않다", "교육 프로그램이 학생들의 성적에 영향을 주지 않는다" 등

대립가설(Alternative Hypothesis, H1)

  • 대립가설은 연구자가 실제로 입증하고자 하는 주장이다.

  • 귀무가설과는 반대되는 주장으로, "변화가 있음", "효과가 있음", "두 집단 간 차이가 있음" 등을 포함한다.

  • 목적: 대립가설은 연구자가 증명하려는 가설로, 통계적 분석을 통해 이 가설이 더 타당한지를 평가할 수 있다.

  • 예시: "새로운 약이 기존 약보다 효과가 좋다", "교육 프로그램이 학생들의 성적을 향상시킨다" 등


2. 적절한 검정통계량 선택

검정통계량

  • 검정통계량(Test Statistic)은 관찰된 표본 데이터로부터 구하는 통계량이다. 검정 시 가설의 진위를 판단하는 기준이 된다.
  • 예: t-통계량, z-통계량, 카이제곱 통계량 등

3. 기각역과 유의수준 설정

유의수준(significance Level, α)

  • 귀무가설을 잘못 기각하게 될 확률의 최대 허용치이다.
  • 일반적으로 0.05(5%) 또는 0.01(1%)를 사용한다.

기각역(Rejection Region)

  • 귀무가설이 옳다는 전제하에서 구한 검정통계량의 분포에서 확률이 유의수준인 부분이다.
  • 검정통계량의 값이 이 영역에 들어갈 경우 귀무가설을 기각한다.

유의확률(p-value)

  • 유의 확률은 귀무가설이 맞다고 가정할 때 얻을 수 있는 결과보다 실젯값이 더 극단에 위치할 확률이다.

4. 데이터 수집 및 검정통계량 계산

표본 데이터를 수집하고, 이를 바탕으로 선택한 검정통계량을 계산한다.

5. 결론 도출

귀무가설 기각

검정통계량이 기각역에 들어가면 귀무가설을 기각하고, 대립가설을 지지한다.

귀무가설 채택

그렇지 않으면 귀무가설을 기각할 충분한 증거가 없다고 결론내리며, 이는 대립가설이 참이라는 것을 의미하지는 않는다.

6. 오류 유형 인식

1종 오류(Type I Error): 귀무가설이 참인데 잘못해서 기각하는 오류이다.
2종 오류(Type II Error): 귀무가설이 거짓인데 채택하는 오류이다.

profile
데이터 분석 공부중:)

0개의 댓글