데이터 가공은 데이터 분석 과정에서 가장 많은 시간과 노력을 투입해야함 -> 정확한 결과를 위해서 해당 과정이 잘못 되면 처음 부터 다시해야 할 수도 있음.
install.packages("dplyr")
library(dplyr)
(1) 데이터 추출 및 정렬하기
nrow(mtcars)
str(mtcars)
filter(mtcars, cyl==4)
-> 조건에 맞는 데이터를 필터링 하는 함수임
filter(mtcars, cyl>=6&mpg>20)
-> 6기통 이상의 자동차 중에서 연비가 20마일/갤런을 초과하는 차만 추출한 것임
head(select(mtcars, am, gear))
-> 변속기(am)과 기어(gear) 데이터만 추출함.
정렬하기: arrange() 함수
데이터를 오름차순으로 정렬할 때 활용함, 내림차순은 desc()함수임
데이터 요약하기 summarise() 함수
그룹별로 요약하기: group_by() 함수
샘플 추출하기: sample_n(), sample_frac()
-> n은 전체 데이터에서 샘플 데이터 개수 기준, frac는 샘플 데이터 비율 기준으로 추출
파이프 연산자: %>%> -> 연결하여 연산하는 연산자
-> 함수를 연달아 사용할때 함수 결괏값을 변수로 저장하는 과정을 거치지 않아도 되고 바로 함수를 이어 받아서 사용할 수 있음