[R] 추론통계(Hypothesis Testing)

Go~ USA·2024년 3월 30일

★[학습목표]
표본 데이터를 사용하여 모집단에 대한 결론을 도출하는 통계적 기법으로 데이터 종류에 따른 가설검정 방법과 P(유의수준)값의 활용을 이해할 수 있다.

t-검정 (Student's t-test), 카이제곱 검정 (Chi-square test), ANOVA (Analysis of Variance), 회귀 분석 (Regression Analysis) 등을 이해하고 활용할 수 있다.

가설 검정 (Hypothesis Testing) 이란?

가설 검정은 모집단에 대한 가설을 평가하는 통계적 기법입니다. 일반적으로 귀무가설과 대립가설을 설정하고, 주어진 데이터를 사용하여 두 가설 중 하나를 선택합니다.
A) 귀무가설(Null Hypothesis): 기존의 믿음을 나타내는 가설로, 일반적으로 "차이가 없다"라는 주장입니다.
B) 대립가설(Alternative Hypothesis): 연구자가 입증하려는 주장으로, 일반적으로 "차이가 있다"라는 주장입니다.

가설 검정은 통계적 검정 통계량(예: t 값, 카이제곱 값 등)을 계산하고, 이를 통해 귀무가설을 기각하거나 기각하지 않는 결정을 내립니다. 이때 사용되는 p 값은 주어진 데이터가 귀무가설과 얼마나 모순되는지를 나타냅니다.

P값의 효용성, 목적을 이해하는데 도움이 되는 예

P 값은 가설을 테스트하는 데 사용되며, 이를 이해하는 한 가지 예제는 약물의 효과를 조사하는 임상 실험을 생각해 볼 수 있다.

혈압을 낮추는 새로운 약물을 개발한 제약 회사가 있다고 가정해 보자. 이 약물이 실제로 효과가 있는지 확인하기 위해 임상 실험을 수행한다. 임상 실험에서, 연구자들은 두 그룹을 비교한다. 하나는 약물을 복용한 그룹이고, 다른 하나는 플라시보(가짜 약)를 복용한 그룹입니다.

A) 귀무가설 (null hypothesis, H0): 약물이 혈압을 낮추는 효과가 없다.
B) 대립가설 (alternative hypothesis, H1): 약물이 혈압을 낮추는 효과가 있다.

이제 실험을 수행하고 혈압을 측정한 후, 각 그룹의 평균 혈압을 비교합니다. 이때, t-검정 등의 통계적 기법을 사용하여 두 그룹 간의 차이가 우연에 의한 것인지를 판단하는 것이 중요합니다.
** 여러가지 가설검정 방법이 있지만 이경우에는 t-test 가 적합한 방법임.

통계적 분석 결과:
실험 결과를 바탕으로, 두 그룹 간의 평균 혈압 차이에 대한 p값을 계산한다. 만약 p값이 충분히 작다면(예를 들어, p < 0.05), 이는 우리가 관찰한 혈압 차이가 플라시보 효과나 우연에 의한 것이 아니라는 증거가 된다. 결과적으로, p값이 유의 수준(일반적으로 0.05)보다 작다면, 우리는 귀무가설을 기각하고 대립가설을 채택한다. 따라서 이 실험에서는 약물이 혈압을 낮추는 효과가 있다고 결론지을 수 있다. 이러한 방식으로, p 값은 우리가 관찰한 데이터가 우연에 의한 것인지 아니면 실제로 효과가 있는지를 판단하는 데 도움이 된다.

통계적 검정 방법은 다양한 상황에서 사용됩니다. 여기에 몇 가지 예시를 제시하면 아래와 같다.

t-검정 (Student's t-test):
예시: 어떤 약물의 효과를 확인하기 위해, 약물을 복용한 그룹과 플라시보를 복용한 그룹 간의 평균 차이를 비교하는 경우에 사용됩니다.

카이제곱 검정 (Chi-square test):
예시: 설문 조사 데이터에서 두 변수(예: 성별과 선호하는 음료) 간의 관계를 평가할 때 사용됩니다.

ANOVA (Analysis of Variance):
예시: 세 개 이상의 그룹 간의 평균 차이를 비교할 때 사용됩니다. 예를 들어, 세 가지 다른 비료를 사용하여 작물의 수확량을 비교하는 경우에 사용될 수 있습니다.

회귀 분석 (Regression Analysis):
예시: 독립 변수(예: 광고 비용)와 종속 변수(예: 판매량) 간의 관계를 평가할 때 사용됩니다. 단순 선형 회귀, 다중 선형 회귀 등 다양한 형태의 회귀 분석이 있습니다.

비모수 검정 (Non-parametric tests):
예시: 데이터가 정규분포를 따르지 않을 때 사용됩니다. 예를 들어, Wilcoxon 순위 합 검정은 두 그룹 간의 중앙값 차이를 비교하는 데 사용됩니다.

Mann-Whitney U 검정:
예시: 두 독립적인 그룹 간의 중앙값 차이를 비교하는 비모수적 방법입니다. 예를 들어, 두 그룹의 평균이 아닌 중앙값을 비교하는 경우에 사용될 수 있습니다.

Go~ USA

이전 포스트

[R] Data Preprocessing

다음 포스트

[R] 추론통계(Hypothesis Testing)

[R] Data Preprocessing

[R] 공공데이터

0개의 댓글