통계적 분석 기법을 활용한 가설 검정
데이터를 요약해서 설명하는 통계 기법
ex) 사람들이 받는 월급을 집계해 전체 월급 평균 구하기
단순히 숫자를 요약하는 것을 넘어서
어떤 값이 발생할 확률을 계산하는 통계 기법
ex)
수집된 데이터에서 성별에 따라 월급 차이가 있는것으로 나타났을때,
이런 차이가 우연히 발생할 확률까지 계산
1) 이런 차이가 우연히 나타날 확률이 작다
-> 성별에 따른 월급차이 통계적으로 유의하다고 결론
2) 이런 차이가 우연히 나타날 확률이 크다
-> 성별에 따른 월급차이가 통계적으로 유의하지 않다고 결론
3) 기술 통계 분석에서 집단간 차이가 있는것으로 나타났더라도
이는 우연의 의한 차이일 수 있음
-> 데이터를 이용해서 신뢰할 수 있는 결론을 내리려면
유의확률을 계산하는 통계적 가설 검정 절차를 거쳐야한다.
유의확률을 이용해서 가설을 검정하는 방법
실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률
1) 분석 결과 유의확률이 크게 나타났다면
-> 집단 간 차이가 통계적으로 유의하지 않다고 해석
-> 실제로는 차이가 없더라도 우연에 의해 이 정도의 차이가
관찰될 가능성이 크다는 의미
2) 분석 결과 유의확률이 작게 나타났다면
-> 집단 간 차이가 통계적으로 유의하다고 해석
-> 실제로는 차이가 없는데 우연히 이 정도의 차이가 관찰될 가능성이 작다, 우연이라고 보기 힘들다는 의미
두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때
사용하는 기법
mpg <- as.data.frame(ggplot2::mpg)
ggplot2 패키지에 포함된 mpg 데이터셋을 data.frame 형식으로 변환하여 mpg 변수에 저장합니다.
library(dplyr)
데이터 전처리를 위해 dplyr 패키지를 로드합니다.
mpg_diff <- mpg %>%
select(class, cty) %>%
filter(class %in% c('compact','suv'))
mpg 데이터에서 class(차량 종류)와 cty(도심 연비) 변수를 선택합니다.
class가 'compact'(소형차) 또는 'suv'(SUV)인 데이터만 필터링하여 mpg_diff에 저장합니다.
head(mpg_diff)
필터링된 데이터의 첫 6행을 출력합니다.
class cty
1 compact 18
2 compact 21
3 compact 20
4 compact 21
5 compact 16
6 compact 18
table(mpg_diff$class)
mpg_diff 데이터에서 'compact'와 'suv' 차량의 개수를 확인합니다.
compact suv
47 62
head(mpg_diff): 필터링된 데이터의 첫 6행을 출력합니다.
t.test(data=mpg_diff, cty ~ class, var.equal = T)
cty(도심 연비)를 종속 변수로,
class(차량 종류)를 독립 변수로 설정하여 두 집단 간 평균의 차이를 검정합니다.
var.equal = T: 두 집단의 분산이 동일하다고 가정합니다.
Two Sample t-test
data: cty by class
t = 11.917, df = 107, p-value < 2.2e-16
alternative hypothesis: true difference in means between group compact and group suv is not equal to 0
95 percent confidence interval:
5.525180 7.730139
sample estimates:
mean in group compact mean in group suv
20.12766 13.50000
p-value < 2.2e-16:
p-value는 매우 작아 유의 수준(일반적으로 0.05)보다 낮습니다.
따라서, compact와 suv 차량의 도심 연비 차이는 통계적으로 유의미하다고 결론 내릴 수 있습니다.
mean in group compact = 20.12766
Compact 차량의 평균 도심 연비는 약 20.13입니다.
mean in group suv = 13.50000
SUV 차량의 평균 도심 연비는 13.50입니다.
해석: Compact 차량의 평균 도심 연비가 SUV보다 높다.
유의확률 0.05 기준
p-value < 2.2e-16
-> compact와 suv 차량의 도심 연비 차이가 통계적으로 유의하다.
mean in group compact mean in group suv
20.12766 13.50000
compact 차는 평균 도심 연비가 20인 반면,
suv 는 13이므로 compact 차가 도심연비가 더 높다.
mpg_diff2 <- mpg %>%
select(fl, cty) %>%
filter(fl %in% c('r','p'))
mpg 데이터에서 연료 종류(fl)와 도심 연비(cty) 변수를 선택합니다.
fl이 'r'(regular, 일반 휘발유) 또는 'p'(premium, 고급 휘발유)인 데이터를 필터링하여 mpg_diff2에 저장합니다.
table(mpg_diff2$fl)
일반 휘발유와 고급 휘발유 차량의 개수를 확인합니다.
p r
52 168
t.test(data=mpg_diff2, cty~fl, var.equal=T)
두 연료 종류 간 도심 연비 차이를 검정합니다.
Two Sample t-test
data: cty by fl
t = 1.0662, df = 218, p-value = 0.2875
alternative hypothesis: true difference in means between group p and group r is not equal to 0
95 percent confidence interval:
-0.5322946 1.7868733
sample estimates:
mean in group p mean in group r
17.36538 16.73810
p-value = 0.2875
일반 휘발유와 고급 휘발유에 따른 도심 연비 차이가 통계적으로
유의하지 않다.
p-value가 0.2875로 유의 수준(0.05)보다 큽니다.
따라서, 일반 휘발유와 고급 휘발유 간의 도심 연비 차이는
통계적으로 유의미하지 않다고 결론 내릴 수 있습니다.
Compact와 SUV 차량의 도심 연비:
차이가 유의미하며, compact 차량이 더 높은 도심 연비를 가집니다.
일반 휘발유와 고급 휘발유 차량의 도심 연비:
차이가 유의미하지 않으며,
연료 종류에 따른 도심 연비 차이가 통계적으로 확인되지 않았습니다.