[스터디_R] dplyr 패키지

Brad Pitt·2022년 6월 5일

dplyr 패키지 실습

filter() 함수를 이용해 데이터를 추출한다.

arrange() 함수를 이용해 데이터를 추출한다.

select() 함수를 이용해 데이터를 추출한다.

데이터 추가 및 중복 데이터 제거하기

mutate() 함수를 이용해 데이터를 추가한다.

distinct() 함수를 이용해 중복값을 제거한다.

cyl 중복 값 제거
gear 중복 값 제거
cyl와 gear 중복 값 제거
and 조건이기 때문에 두 값이 모두 중복 될 때만 제거 된다.

*mazda RX4 와 Hornet 4 Drive, Ferrari Dino 는 동일한 cyl 이지만 gear 값이 다르다.

데이터 요약 및 추출

summarise() 함수를 이용해 요약값 추출
group_by() 함수를 이용해 같은 값(=cyl)끼리 요약
summarise(변수명, n())을 활용해 그룹별 개수 요약
n_distinct()를 추가해 특정 열의 중복값을 제외하고 개수를 파악

*n()과n_distinct()함수는 단독으로 사용할 수 없고 통계함수를 쓸 때 사용가능
sample_n(변수명, 추출할 샘플 개수) 함수는 관측치에서 랜덤한 개수로 데이터를 추출
sample_frac(변수명, 추출할 샘플 퍼센트) 함수는 관측치에서 랜덤한 퍼센트로 데이터를 추출