분석에 적합하게 데이터를 가공하는 작업
dplyr
%>%
기호 이용해 함수 나열dplyr 함수 | 기능 |
---|---|
filter() | 행 추출 |
select() | 열 추출 |
arrange() | 정렬 |
mutate() | 변수 추가 |
summarise() | 통계치 산출 |
group_by() | 집단별 나누기 |
left_join() | 데이터 합치기(열) |
bind_rows() | 데이터 합치기(행) |
변수명 %>% filter(조건)
변수명 %>% select(추출할변수)
# 제외
변수명 %>% select(-제외할변수)
# 오름차순
변수명 %>% arrange(기준변수)
#내림차순
변수명 %>% arrange(desc(기준변수))
변수명 %>%
mutate(생성할변수명 = 파생변수조건)
변수 %>%
group_by(기준) %>%
summarise(새변수 = 조건)
# 가로
변수 <- left_join(변수1, 변수2, by="기준")
# 세로, 변수명 통일 필요
변수 <- bind_rows(변수, 변수)