P value, T test, F test

­김성우·2022년 6월 28일
0
post-thumbnail

  • Q. P value 가 뭐냐? 그리고 어떻게 사용하냐?
    A. P value 란 귀무가설이 맞다는 가정할때 제가 구한 통계값이 얼마나 자주 나올지를 확률로 나타낸 값입니다. 이 p value 은 귀무가설을 기각할지 말지의 여부를 결정할때 사용하며, 너무 작으면 귀무가설이 맞다는 가정이 틀렸다는 것을 알 수 있기 때문에 기각을 해 대립가설을 채택하면 됩니다.

  • Q. T test 가 뭐냐?
    A. T test 은 두 집단의 평균이 같은지를 귀무가설로 설정해 확인하는 검정법을 말합니다.

  • Q. T test 의 종류에는 뭐가 있냐? 그리고 간략하게 설명해봐라.
    A. T test 에는 크게 3가지가 있습니다. 단일표본 t test, 독립표본 t test, 쌍체표본 t test 가 있습니다. 단일표본 t test 은 집단이 특정 평균값 뮤와 같은지를 확인하는거고, 독립표본 t test 은 독립적인 두 집단의 값들의 평균이 같은지를 확인하는거고, 쌍체표본 t test 은 같은 표본인데 변화를 가한 우의 평균이 같은지를 확인하는 겁니다.

  • Q. T test 의 기본 전제가 뭐냐? 그리고 그 전제가 만족되지 않으면 어떡하냐
    A. T test 은 기본적으로 모든 표본들이 정규분포를 이룬다는 가정을 합니다. 이 가정이 만족되지 않으면 t test 말고 wilcoxon test 를 실행해야 합니다.

  • Q. T test를 실행하는데 비교할 집단이 3개 이상이면 어떻게 할건가?
    A. T test 은 두 집단을 비교합니다. 3개 이상의 집단을 비교한다면 ANOVA Analysis of Variance 를 이용해야합니다. 이 ANOVA 를 통해 구한 f value 와 p value 가 기각역보다 작으면 평균이 다른 집단이 적어도 하나가 있다는 것입니다.

  • Q. F test 는 뭐냐?
    A. F test 은 두 집단의 분산이 다른지를 확인하는 검정입니다. 귀무가설로 '두 집단의 분산이 같다' 로 설정하고 대립가설은 '두 집단의 분산이 다르다' 로 설정을 해 수식을 통해 f value 를 구하고 f 분포표에서의 기각역에 해당되는 p value 와 비교해 귀무가설을 기각할지 말지를 결정합니다.



자 이번에는 카이스트와 한양대학원 두 면접에서 들은 질문. 카이스트에서는 p value 가 무엇인지 물었고, 한양대에서는 f test 가 무엇이냐고 물었다. 둘다 애매하게 답변했다. 다시는 그러지 말자.


P value

P value 정의는 '귀무가설이 맞다고 가정할때 내가 현재 구한 통계값이 얼마나 자주 나올지 확률로 구한 것' 이다. 즉, 귀무가설이 맞을 확률 이라고 알아둬도 될 것 같다 (물론 정의상 틀린 얘기긴 하다). 이 P value 는 t test, f test 를 포함한 검정, hypothesis testing 에 이용되기 때문에 잘 알아둬야 한다.


T test

T test 정의는 '두 집단의 평균이 같은지를 확인하는 검정' 이다. 이를 하는 방법은 알맞은 t test 를 선택해 t value 를 구하고 이에 따르는 p value 를 구해 귀무가설을 기각할지의 여부를 선택하면 된다. 이때 귀무가설은 '두 집단의 평균이 같다' 이고 대립가설은 '두 집단의 평균은 다르다' 이다.

이때 t test 은 표본들이 기본적으로 정규분포를 이룬다고 할때 사용할 수 있다. 만약 정규분포를 이루지 않으면 Wilcoxon test 를 이용해야 한다.

T test 은 크게 3가지 종류가 있다.
1. 단일표본 t test, 1 sample t test
2. 독립표본 t test, unpaired t test
3. 쌍체표본 t test, paired t test

1. 단일표본 t test, 1 sample t test

1 sample t test 은 '집단의 평균이 알려진 숫자 뮤와 같다' 을 실험하는 검정이다.
예시로는 '남학생 평균 키가 172이다' 의 가설을 확인하기 위해 남학생 키 1000 개를 수집해 이를 실험하는 것이다. 한개의 집단과 한개의 값을 비교.

2. 독립표본 t test, unpaired t test

unpaired t test 은 '두 집단의 평균이 같다' 를 실험하는 검정이다.
예시로는 'A 학교 남학생 평균 키와 B 학교 남학생 평균 키가 같다' 의 가설을 확인하기 위해 두 집단의 키 1000개를 수집해 실험하는 것이다. 두 개의 집단을 비교.
이때 독립표본 t test 은 두 집단이 서로 독립인지 아닌지를 확인해야한다. 이를 위해서 아래에 서술할 f test 를 사용하면 되는데, 이를 사용해 둘의 분산이 같게(등분산) 나타나면 독립이라 하고 진행하면 된다. 다르게(p value가 기각역보다 작게) 나오면 등분산을 만족하지 않은 상태로 진행하면 된다. 둘의 값이 다르기 때문에 이는 꼭 필요한 과정이다.

3. 쌍체표본 t test, paired t test

paired t test 은 '하나의 집단이 변화를 가한 후 평균이 같다' 를 확인하는 검정이다.
예시로는 'A 학교 남학생 평균 키는 약물 X 를 먹은 후에도 같다' 의 가설을 확인하기 위해 먹기 전의 키 1000개와 먹고 나서 키 1000개를 비교하는 실험이다. 약물 X 가 효과가 있는지를 확인하기 위해 하는 실험이다.
이때 paired t test 이고 같은 사람, 즉 독립적이지 않은 표본들을 가지고 하는 것이기 때문에 대응을 꼭 맞춰야 한다. 약물을 먹기 전과 후가 다른 사람이면 이 약물의 효과를 알 수 없는 것이다. 대응을 안 맞추고 진행하면 unpaired t test 나 다름없다.

ANOVA

이때 T test 은 기본적으로 2개의 집단만을 비교할 수 있다. 3개 이상의 집단에서 하나라도 평균이 다른 집단이 있는지 확인하기 위해서는 ANOVA 를 사용해야한다.

ANOVA 은 Analysis of Variance 로, F value 를 이용해 집단의 평균이 다른지를 검정하는 것이다.
ANOVA 은 크게 2가지가 있으며 one way ANOVA, two way ANOVA 이다. one way ANOVA 은 독립변수가 1개일때, two way ANOVA 은 독립변수가 2개일때 사용한다.

F test

f test 은 위에서 잠깐 서술했지만 '두 집단의 분산이 같다'를 실험하는 검정이다. 귀무가설은 '두 집단의 분산이 같다' 이며 대립가설은 '두 집단의 분산이 다르다' 이고 p value 를 통해 결정하면 된다.

profile
Dreaming of Algorithm & AI Expert...

0개의 댓글