[스터디_R] 데이터 추출, 정제, 전처리

Brad Pitt·2022년 5월 24일

필요한 데이터 추출

select() 함수 사용

%>% 연산자는 파이프 연산자라고 하며 dplyr 패키지에 포함된 기능 중 하나다. 여러번 실행해야 하는 복잡한 코드를 한 번에 처리할 수 있게 연결해 주는 연산자다.
한 가지 변수 가져오기

filter() 함수 사용

데이터 정렬

데이터 요약

분위수란 ?
전체 자료를 크기순으로 정렬할 때 경계에 해당하는 값을 의미한다.

1분위수 : 하위 25%에 해당하는 값

2분위수 : 50%에 해당하는 값, 중앙값과 동일하다

3분위수 : 상위 25%에 해당하는 값

summarise() 함수를 이용해 합계를 도출

group_by() 함수를 이용해 그룹의 값을 도출

[출처] 처음 시작하는 R데이터 분석, 강전희

데이터는 철저하게 해석은 자유롭게