서술형대비 - EDA 2

duri·2024년 2월 17일

ADP

목록 보기

13/18

단일 모집단에서 관심있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할때 사용한다.
예) 서울시민의 평균 키는 170cm 이다.

요건

단일 모집단에 대해 두번의 처리를 했을 때 두 처리에 따른 평균의 차이를 비교. 표본 내의 개체에 대해서 두번의 측정을 실시함.
예) 직업교육을 들은 a기업의 판매사원의 판매실적이 교육을 안들은 판매사원의 판매실적보다 높다

요건

두개의 독립된 모집단에 대해 평균을 비교. 두 모집단에서 표본을 각각 추출한 후 검정을 실시함.
예) a기업의 판매사원보다 b기업의 판매사원의 판매실적이 더 좋다.

요건

검정할 가설 :
액션영화가 느와르 영화보다 박스오피스 넘버가 높을 것이다

사용할 데이터 :
영화관객수 데이터 (출처 캐글)

action = subset(data, data$genre=="액션")
noir = subset(data, data$genre=="느와르")
action = action[sample(c(1:28),25),]
noir = noir[sample(c(1:27),25),]

레코드 수가 다르므로 25개만 추출함

group = factor(rep(c("액션","느와르"),each=25))
test = data.frame(group=group, num = c(action$box_off_num,noir$box_off_num))

테스트할 데이터 프레임으로 속성 추출해 변환

var.test(num~group, data = test, alternative="two.sided")

두 집단의 등분산성을 검증한다.
이때 대립가설 : 두 집단의 분산은 유의미한 차이가 있다
귀무가설 : 두 집단의 분산은 유의미한 차이가 없다

검증결과

유의수준 0.05 보다 큰 0.59를 p값으로 가지기 때문에 영가설을 채택한다. 즉 두 집단의 분산은 등분산성을 가진다고 본다.

t.test(num~group, data = test, alternative="two.sided")

ttest를 진행한다.
이때 대립가설 : 두 집단의 박스오피스 넘버에는 유의미한 차이가 있다
귀무가설 : 두 집단의 박스오피스 넘버에는 유의미한 차이가 없다.

검증결과

유의수준 0.05보다 큰 0.97을 p값으로 가지기 때문에 영가설을 채택한다.

배우는중인 두리