안녕하세요,
오늘은 통계검정 중, T-test에 대해 알아볼까 합니다.
저는 최신으로 나오는 기술들 보다 예전부터 많이 쓰이는 통계 부분이 더 어려운 것 같습니다.
아무튼 잘 얘기해보겠습니다.
t 검정 (t-test)
모집단의 분산이나 표준편차를 알지 못할 때
모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로
“두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법입니다.
-(교육평가용어사전, 2004, 학지사)
제가 통계적 용어는 풀이가 약해서 용어사전의 내용을 가져왔습니다.

T-test는 위 그림으로 설명할 수 있습니다.
우리가 관심있는 부분은 항상 어떤 모집단의 모수입니다.
(평균, 분산 등)
t-test는 우리가 수집한 데이터들이 실제 모집단의 특성을 얼마나 가져가는지에 대해서 알 수 있는 지표라고 보시면 되겠습니다.
위 그림에서 왼쪽이 우리가 수집한 데이터, 오른쪽이 실제 모집단의 데이터라고 하면 그 사이의 교점이 t-value가 되고, 겹치는 부분의 넓이가 p-value가 됩니다.
우리는 보통 대립가설을 채택하고 싶어합니다.
ex) 어떤 교육을 들은 학생들은 듣지 않은 학생보다 취업률이 높을 것이다.
ex) A 농장에서 키운 과일은 당도가 더 높을 것이다.

즉 t-value를 높다는 것은 두 집단의 평균 차이가 크고 변화량이 적다는 뜻이니까 대립가설을 채택할 가능성이 높아진다 할 수 있겠습니다.
그럼 p-value는 뭐냐
t-value와 자유도를 통해 결정되는 확률 수치입니다.
만약 p-value가 0.03이 나왔다면
두 집단이 같을 확률(귀무가설을 채택할 확률)이 3퍼센트라는 의미를 갖습니다.
일반적으로 0.05를 설정합니다. (5퍼)
자꾸 뭐가 나오죠 자유도는 뭐냐
자유도는 데이터를 분석할 때, 특정 제약 조건에 의해 제한되지 않고 자유롭게 변할 수 있는 값의 개수를 의미합니다.
평균을 계산할 때, 평균을 알고 있다면 5개의 샘플 중 4개만 자유롭게 변할 수 있고, 나머지 하나는 평균값을 맞추는 데에 사용되기에 자유도가 4입니다.
즉 맘대로변할 수 있는 값은 4개인 것이죠.
t-test에서는 자유도는 보통 데이터의 개수 - 1이 됩니다.
자유도가 높을수록 정규 분포의 모양에 가까워지고, 자유도가 낮을수록 신뢰성이 떨어지며 데이터 분포의 모양이 꼬리가 길어지는 정규분포가 됩니다.
요약을 해보면
통계 검정은 이외에도 카이제곱 검정, ANOVA 검정 등 다양한 검정 방법이 있습니다.
전부 p-value를 통해 유의수준을 정하고 가설을 기각하는 형태입니다.
가장 기본적인 통계검정은 t-test입니다.
그냥 통계 검정은 이렇게 하는거구나 하고 넘어가셔도 되면 그렇게하시고
모든 검정을 자세하게 알아야한다 싶으면 나머지도 찾아보시면 되겠습니다.
감사합니다 !!