서술형대비 - EDA 2

duri·2024년 2월 17일
0

ADP

목록 보기
13/18

통계분석방법론

1. 상관분석


2. t-test

2-1) 일표본 t-검정

단일 모집단에서 관심있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할때 사용한다.
예) 서울시민의 평균 키는 170cm 이다.

요건

  • 모집단이 정규분포를 이룬다는 가정
  • 종속변수는 연속형일것

2-2) 대응표본 t-검정

단일 모집단에 대해 두번의 처리를 했을 때 두 처리에 따른 평균의 차이를 비교. 표본 내의 개체에 대해서 두번의 측정을 실시함.
예) 직업교육을 들은 a기업의 판매사원의 판매실적이 교육을 안들은 판매사원의 판매실적보다 높다

요건

  • 모집단이 정규분포를 이룬다는 가정
  • 종속변수는 연속형일것

2-3) 독립표본 t-검정

두개의 독립된 모집단에 대해 평균을 비교. 두 모집단에서 표본을 각각 추출한 후 검정을 실시함.
예) a기업의 판매사원보다 b기업의 판매사원의 판매실적이 더 좋다.

요건

  • 두 모집단이 정규분포를 이룸
  • 두 모집단은 독립적임
  • 두 모집단은 등분산성가정을 만족함
  • 독립변수는 범주형, 종속변수는 연속형일 것.

검정할 가설 :
액션영화가 느와르 영화보다 박스오피스 넘버가 높을 것이다

사용할 데이터 :
영화관객수 데이터 (출처 캐글)

action = subset(data, data$genre=="액션")
noir = subset(data, data$genre=="느와르")
action = action[sample(c(1:28),25),]
noir = noir[sample(c(1:27),25),]

레코드 수가 다르므로 25개만 추출함

group = factor(rep(c("액션","느와르"),each=25))
test = data.frame(group=group, num = c(action$box_off_num,noir$box_off_num))

테스트할 데이터 프레임으로 속성 추출해 변환

var.test(num~group, data = test, alternative="two.sided")

두 집단의 등분산성을 검증한다.
이때 대립가설 : 두 집단의 분산은 유의미한 차이가 있다
귀무가설 : 두 집단의 분산은 유의미한 차이가 없다

검증결과

유의수준 0.05 보다 큰 0.59를 p값으로 가지기 때문에 영가설을 채택한다. 즉 두 집단의 분산은 등분산성을 가진다고 본다.

t.test(num~group, data = test, alternative="two.sided")

ttest를 진행한다.
이때 대립가설 : 두 집단의 박스오피스 넘버에는 유의미한 차이가 있다
귀무가설 : 두 집단의 박스오피스 넘버에는 유의미한 차이가 없다.

검증결과

유의수준 0.05보다 큰 0.97을 p값으로 가지기 때문에 영가설을 채택한다.

profile
배우는중인 두리

0개의 댓글