한 사람이 여러 줄일 때 T검정

주울·2022년 10월 20일

데이터분석

목록 보기
2/7

연속형 변수 분석

summary(data$var) //최대, 최소, 평균 등 전체적 값 얻기
hist(data$var) //히스토그램으로 연속형 변수의 분포 확인하기
hist(data$var, breaks = seq(-150000, 1500000, by=100)) // 히스토그램의 범위와 간격을 조정하여 보기
data[(data$var>0 & data$var<100000), ] //조건에 맞는 행만 보기

결측값 없애기

data1 <-data1[complete.cases(data1$sex), ] #결측값 없애기. complete.cases는 결측치가 있으면 FALSE 반환
View(data1)
summary(data1$sex)

범주형 변수 분석

install.packages("descr") //freq 사용위해
library(descr)
freq(data$sex)

aggregate

data2 <- aggregate(data$var, list(data2$id), mean) #연속형 변수 var의 중앙값으로 한 사람 나타내기(id당 평균 var값으로 한 줄!)
View(data2)

merge 하기

data$id = data$Group.1 //새 열 생성
data3 <- merge(data, data2, key=pid) //key값을 기준으로 merge 
View(data3)

t.test

shapiro.test(mydata$x) # 1. 정규분포를 따르는지 test하는 함수. 귀무가설은 정규분포x이다 임. p-value가 0.05보다 큰것 확인가능.  ->귀무가설 기각 불가.
#정규분포이므로 정규성 검정 통과 -> parameteric? method 사용가능. t-test 사용
var.test(x~sex, data= mydata, conf.level=0.95) # 2. 아래의 var.equal을 test 하기 위해. 분산이 같은지를 보는 테스트. 두개의 분산을 비교. 귀무가설이 분산이 같다 임. p-value가 0.05보다 큼. ->귀무가설 기각 불가능. 따라서 아래에 var.equal이 트루됨.
t.test(x~sex, data = mydata, var.equal=TRUE, conf.level=0.95) # 3. 범위 table 만들기 # y~x #귀무가설(h0)이 두개의 평균이 같다 임. p-vlaue가 0.05보다 큼-> 귀무가설(h0) 기각 불가능.
freq(mydata$sex)

0개의 댓글