SPSS, Jamovi, SAS, STATA 등 다양한 통계분석 프로그램이 있지만 ...
R의 여러 장점 때문에 많이 사용하는 추세
R Studio 사용 시 유의사항
※ PC 사용자 계정은 반드시 영문으로 설정하자 (경로 오류 방지)
※ '관리자 권한으로 실행'하는 습관을 들이자
setwd(“ ”)
: working directory 설정getwd()
: 현재 working directory 확인 "R 켜면 습관처럼 이것부터!"<- c( )
: 특정 변수에 개별 값 입력하기 (c로 묶어줌)rep(n,k)
: n을 k번 반복data.frame()
: 변수 여러 개를 묶어서 하나의 데이터프레임 객체로 설정read.csv()
: 기존 자료 불러오기 (R에서는 csv 형태를 선호함)write.csv()
: 만든 자료 내보내기(저장하기)str()
, head()
, tail()
로 데이터 살펴보기as.factor()
: 범주형 변수로 설정 / levels()
: 변수의 수준ifelse(A, B, C)
: A라는 조건에 대해, 맞으면 B, 틀리면 C로 실행replace(A, B, C)
: A 데이터가, B라는 조건에 맞으면, C로 실행(새 코딩값)[match (기존 코딩값)]
: 변수가 가진 값을 직접 변경할 수 있음rowMeans()
: 여러 변수의 평균값으로 새 변수를 생성할 수도 있음na.rm=T
: 하나라도 NA 있으면 평균도 NA로 나오도록 하는 설정data[2] data[,2]
: 자료의 2번째 열을 뽑아줘data[3,]
: 자료의 3번째 행을 뽑아줘data[2,3]
: 자료의 3행 2열 값을 뽑아줘data[원하는 조건,]
: 조건에 해당하는 관측치 (※ 관측치니까 콤마 필수)(실습과제 추가)
table()
: 원하는 변수의 빈도(분포표)를 보여줘prop.table()
: 원하는 변수의 빈도를 표본비율로 보여줘summarytools
: 더 자세한 기술통계 기능이 있는 패키지freq()
: 결측값 개수, 유효(valid)비율, 총(total)비율, 누적(cum.)비율까지 알려줌mean()
: 평균 / sd()
: 표준편차 / na.rm=T
: 결측치 제외하고 계산하는 설정summary()
: min, max, median, mean, Q1, Q3, NA 보여줌psych
: 더 자세한 기술통계량 측정이 가능한 패키지describe()
: 왜도, 첨도 등 13종류(기본값)의 다양한 기술통계값을 보여줌🆚결측치 처리 방식🆚
na.rm=T
: 각 변수별로 결측치 제외 후 기술통계량 제시
na.rm=F
: 하나의 변수에라도 결측치 있는 사례 제외 후 기술통계량 제시
barplot()
: 막대그래프 생성 (⭐table을 전달해야 함!! 얘만 그럼!!)xlim()
, ylim()
: x축, y축의 범위를 원하는 대로 설정할 수 있음.hist()
: 히스토그램 생성breaks
: 막대 개수 설정 / xlab
, ylab
: x축, y축 라벨 설정 / main
: 전체 라벨 설정boxplot()
: 박스플롯 생성~
: 다른 변수에 따라 집단 나눠서 볼 수도 있음 / col
: 박스 색깔 설정*출처 : 서울대학교 Kmooc, <교육연구와 통계방법>.