데이터과학_12_2

Mini·2024년 11월 20일

3학년2학기 데이터과학

3학년 2학기

목록 보기

22/29

📌 dplyr 라이브러리

data manipulation

mutate - 새로운 변수 생성
select - 필요한 변수만 추출
filter - 조건에 맞는 데이터 필터링
arrange - 정렬하기
summarize - 통계량 구하기
group_by - 그룹 나누기

변수 선택 - select

select(df, 변수명,…)

또는 select(df, 번호)

예전에 필터링은:
df[c(‘변수명’,…)] 변수 이름으로

df[1:n]열 번호로

select(df, -변수명)
select(df, -c(변수명,…)

변수명 앞에 –가 붙으면 삭제
선택과 삭제 동시 사용 가능

변수 생성 - mutate

mutate(df, 변수명=수식)
예전에는df$변수명 = 수식
부상자수를 구하여 data2에 저장
data2에서 시도와 시군구를 합쳐서 시도_시군구 생성하여 data3에 저장
data3에서 사고당부상자수를 구하여 data4에 저장

정렬하기 - arrange

arrange(df, 변수명, desc(변수명))
desc는 역순으로
예전에는df[order(변수명, -변수명), ]

필터링 - filter, and, or

filter(df, 조건)
예전에는df[조건, ]행에 조건식, 열은 전부
%>%: 파이프위의 결과를 그대로 받아 다음 코드 실행 – 데이터프레임 생략 가능

filter(df, 조건)

,(쉼표)로 연결된 조건은 and
&: and
|: or 사용 가능

📌 파이프 사용

앞의 결과를 다른 변수에 저장하지 않고 그대로 다음 줄에 넘겨줌
데이터프레임 이름을 명시하지 않아도 됨. (각 문장의 끝에 %>%)

무지(無知)

이전 포스트

24년 컴퓨터공학과 졸업전시회

다음 포스트

소프트웨어공학_12

0개의 댓글