1. 데이터 파악하기
exam <- read.csv("csv_exam.csv") #데이터프레임 생성성
1) 데이터 파악할 때 사용하는 함수들
함수 | 설명 |
---|
head( ) | 데이터 앞에서부터 6행까지 확인 |
tail( ) | 데이터 뒤에서부터 6행까지 확인 |
View( ) | 뷰어창에서 데이터 확인하기 |
dim( ) | 데이터가 몇 행, 몇 열로 구성되어 있는지 알아보기 |
str( ) | 속성 파악하기 |
summary( ) | 요약 통계량 산출 |
2) exam 데이터 파악하기
head(exam) #앞에서부터 6행까지 출력
head(exam, 10) #앞에서부터 10행까지 출력
tail(exam) #뒤에서부터 6행까지 출력
tail(exam, 10) #뒤에서부터 10행까지 출력
View(exam) #데이터 뷰어 창에서 exam 데이터 확인
dim(exam) #행, 열 출력
str(exam)
summary(exam)
3) summary를 실행해 출력되는 요약 통계량
출력값 | 통계량 | 설명 |
---|
Min | 최솟값 | 가장 작은 값 |
1 st Qu | 1사분위수 | 하위 25%(1/4) 지점에 위치하는 값 |
Median | 중앙값 | 중앙에 위치하는 값 |
Mean | 평균 | 모든 값을 더해 값의 개수로 나눈 값 |
3rd Qu | 3사분위수 | 하위 75%(3/4) 지점에 위치하는 값 |
Max | 최댓값 | 가장 큰 값 |
4) mpg데이터 파악하기
mpg <- as.data.frame(ggplot2::mpg) #ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기
head(mpg)
tail(mpg)
dim(mpg)
str(mpg)
summary(mpg)
2. 변수명 바꾸기
1) 데이터 프레임 생성
df_raw <- data.frame(var = c(1, 2, 1),
var2 = c(2, 3, 2))
df_raw
2) rename 함수 이용하기 위해 dplyr 패키지 다운/로드
- dplyr 패키지: 데이터를 원하는 형태로 가공할 때 사용하는 패키지
install.packages("dplyr") #설치
library(dplyr) #로드
3) 복사본 생성 및 출력
df_new <- df_raw
df_new
4) 변수명 변경하기 (var2를 v2로 수정)
df_new <- rename(df_new, v2 = var2)
df_new
3. 파생변수 만들기
1) 변수 조합해 파생변수 만들기
df <- data.frame(var1 = c(4, 3, 8),
var2 = c(2, 6, 1))
df$var_sum <- df$var1 + df$var2
var_mean 파생변수 생성
(var1과 var2를 더한 후 2로 나눔.)
df$var_mean <- (df$var1 + df$var2)/2
df
2) mpg 통합 연비 변수 만들기
mpg$total <- (mpg$cty + mpg$hwy)/2
3) 조건문을 활용해 파생변수 만들기
summary(mpg$total) #요약 통계량 산출
hist(mpg$total) #히스토그램 생성
mpg$test <- ifelse(mpg$total >= 20, "pass", "fail") #20이상이면 pass, 그렇지 않으면 fail 부여
head(mpg, 20) #데이터 확인
table(mpg$test) #연비 합격 빈도표 생성
library(ggplot2)
qplot(mpg$test) #연비 합격 빈도 막대 그래프 생성
4) 중첩 조건문 활용하기
- tatal을 기준으로 A, B, C 등급 부여
mpg$grade <- ifelse(mpg$total >= 30, "A",
ifelse(mpg$total >= 20, "B", "C"))
head(mpg, 20)
table(mpg$grade) #등급 빈도표 생성
qplot(mpg$grade) #등급 빈도 막대 그래프 생성
5) 원하는 만큼 범주 만들기
mpg$grade <- ifelse(mpg$total >= 30, "A",
ifelse(mpg$total >= 25, "B",
ifelse(mpg$total >= 20, "C", "D")))