[통계] jamovi를 사용해서 kaggle t-test example로 t-test해보기!

JIEUN KANG·2020년 9월 24일
1
post-custom-banner

(*) jamovi를 사용하기 전 알아야 할 것들!

(강의 참고: https://www.youtube.com/watch?v=mEWQ_vl3IPw)

(0) t-test는 왜 필요할까?

  • 목적 : 두 집단이 같은지 다른지를 비교하기 위해 사용
  • BUT, 집단이라는 표현은 지극히 애매하다.
    어떻게 두 집단이 같은지 다른지를 파악할 수 있을까?
    -> 정답: 통계적인 관점에서는 '두 집단의 평균값이 같은지 다른지'를 확인한다.

(1) t-test를 통계적으로 어떻게 볼 수 있을까?

  • A라는 집단의 평균과, B라는 집단의 평균이 '우연히' 같을 확률이 얼마나 될까?
    -> 두 집단의 평균 차이가 '우연히' 발생할 확률은 얼마나 될까?
    -> 여기서 평균의 차이가 어떻게 얼마나 큰지 작은지 모르기 때문에, 비교할 때 '분산'의 개념을 도입.

(2) t-test와 anova(analysis of variation)의 차이는 뭘까!?

  • t-test는 독립(=인과관계에서 독립적인 위치를 차지하는 것들)된 두 집단의 평균 차이가 있는지, 없는지를 보기 위한 것!
  • anova(=분산분석)는 세 개의 집단의 평균 차이가 있는지 없는지를 검정한다.

    출처: https://m.blog.naver.com/gallupkorea/220129529057

  • 독립변수 : 성별(sex)
  • 종속변수 : first, second, final 기간의 점수 (g1, g2, g3 칼럼)

(1) jamovi의 기능 - Descriptives

  • 성별에 따른 g1, g2, g3의 표본수, 평균, 표준편차 손쉽게 파악 가능!
  • 그냥 직관적으로는 남자의 평균이 여자보다 높다고 생각할 수 있음.(그러나 통계적으로 그렇게 하면 노노라는거!)

(2) jamovi의 기능 - Independent t-test

(1) statistics = t값
(2) df = 자유도 (단측 검정은 n-1인데 지금은 양측 검정이라서 n-2. 자유도의 개념은 아직 헷갈려서 계속 파악할 예정. 자유도가 높다 = 표본의 크기가 크다 정도로만 이해하고 있다.)
(3) p = 0.05보다 작으면 유의(이 차이가 우연히 발생한 것이 아니다) 라고 이야기를 하는데, g1과 g2는 살짝 넘고 g3가 살짝 작은 모습.

hypothesis의 변경 - 양측 / 단측(2가지 케이스)

(1) 양측검정(group 1(f)과 group(2) 평균이 다르다고만 할때)

g3만 0.0보다 작다(=유의하다) 라고 보여주고 있음.

(2) 단측검정 case 1. group 1(F) > group 2(M)

여자의 평균이 남자보다 높다고 가정했을 때, p값이 0.05를 모두 벗어나고 있음을 확인!

(3) 단측검정 case 2. group 1(F) < group 2(M)

남자의 평균이 여자보다 높다고 가정했을 때, p값이 전부 0.05 이내에 있음 -> 유의한 결과를 보여주고 있기 때문에, 남학생이 여학생보다 잘하는게 맞아요! 라는 결과임.

(3) jamovi의 기능 - Paired Sample t-test

  • 같은 집단의 before, after를 보기 위한 시험임!

(1) 양측검정 (g1과 g2의 평균이 다르다고만 할때)

G1의 평균값 = 10.9 / G2의 평균값 = 10.4 인데,
양측검정을 실시했을 때 G1보다 G3 기간에 훨씬 평균이 나빠졌다 라는 것을 보여주고 있음.

(2) 단측검정 - G1이 G3보다 평균이 크다! 라고 가정했을 때,

단측검정을 실시했을 때, P밸류가 엄청 작아지는것을 확인! (0.05 이내임!)

(3) 단측검정 - G3가 G1보다 평균이 크다! 라고 가정했을 때,

P밸류가 완전 아니라고 소리치는 것을 볼 수 있다..!!

다음은 jamovi를 활용해서 one-way anova를 조금더 공부하고 실습해보려고 한다! (수식으로 하면 너무나 어려운데, jamovi 내에서 값이 나오는게 참 재밌는것같다.)

profile
가장 보통의 존재
post-custom-banner

1개의 댓글

comment-user-thumbnail
2020년 9월 25일

가장 보통의 존재님, 좋은 설명 감사합니다!
저는 t test나 z test 결과를 해석할 때, p value 값을 보고 단정적으로 '귀무가설을 기각한다' 는 형식으로 표현하는 것을 조심하려고 합니다. 보통은 p value 0.05 아래에서는 '실험가설이 맞다!' 가 아니라, '실험가설이 맞을 통계적 근거가 강하다' 이런 식으로 표현하더라구요. 잘 알고 계시겠지만, 모두가 실수하기 좋은 부분이라 댓글 남기고 갑니다 : )

답글 달기