데이터분석 with R_dataframe

김유림·2021년 8월 31일
0

R

목록 보기
2/5
post-thumbnail

영원히 고통 받는 INFP의 기록장입니다
> feat. 국비교육

전에 들었던 R보다 속도가 2.5배 정도 빠른 이번 수업 🤢
중간 중간 빠진 부분들은 교재로 채워나가야된다 a.k.a 쉽게 배우는 R 데이터 분석

데이터프레임 생성하기

R에는 다양한 자료형이 있는데 프로젝트를 하다보면 모두 느끼겠지만 dataframe을 가장 많이 사용하게 된다. 데이터 분석을 할 때 공공 데이터와 같은 외부 데이터를 활용하게 되는데 많은 파일들이 다양한 자료형의 값을 포함하고 있고 행과 열의 형태로 구성되어 있어 dataframe이 가장 적합하다

df1 <- data.frame(menu=c("떡볶이","순대","튀김"),
		  price=c(10000,3000,1500),
                  cal = c(1200,400,100))                 

위 코드를 실행하면 행과 열 형태서로 다른 자료형(문자,숫자) 를 포함하는 데이터 프레임을 만들 수 있다 👍

mean(df1$price)
mean(df1$cal)

mean 함수를 통해 데이터 평균을 구할 수도 있는데, 해당 연산의 경우 숫자형 자료에만 사용할 수 있어 문자형 데이터를 담고 있는 menu 에는 사용할 수 없다

외부 데이터 불러오기

'쉽게 배우는 R 데이터 분석(이지스퍼블리싱,김영우 지음)' 참고
xlsx 데이터를 불러오기 위해서는 readxl 설치를 먼저 해야한다!

install.packages("readxl") # 설치
library(readxl) # 이미 설치된 경우 library 로드
df_exam <- read_excel("파일명")
df_exam_novar <- read_excel("파일명",col_names=F)
# 데이터에 header 없이 바로 값이 나온다면 col_names=F 를 줘야한다
df_exam_sheet <- read_excel("파일명",sheet=시트 번호)
------
df_exam_csv <- read.csv("파일명") # csv 파일 불러오기
df_exam_csv
------
readRDS("파일명") # R 파일 불러오기

여기서 잠깐!
파일이 있는데 자꾸 파일이 없다고 뜬다?!
getwd() 함수로 현재 작업하고 있는 영역이 파일을 저장한 영역과 같은지 확인
setwd('경로') 를 통해 원하는 작업 영역을 설정할 수 있다

데이터 내보내기

write.csv(데이터가 포함된 변수명,file="파일명")
saveRDS(데이터가 포함된 변수명,file="파일명")

데이터 파악을 위한 함수

🔍 Tips: 함수를 입력하고 마우스 커서를 올린 뒤 F1 -> 함수 정보를 알 수 있다

head() - 데이터 앞 6개
tail() - 데이터 뒤 6개
# n 속성을 통해 출력 개수 조절 가능

view() - 뷰어 창에서 데이터 확인, 테이블 형태로 떠서 콘솔보다 보기 좋다
dim() - 데이터 차원 출력
str() - 데이터 속성
summary() - 요약 통계(Min,1st Qu, Median, Mean, 3rd Qu, Max)
table(변수) - 빈도표 출력
qplot(변수) - 막대 그래프 생성

데이터 다루기 기본

rename(df형 변수명,새로운 컬럼명 = 기존 컬럼명)
# 불러온 데이터의 컬럼명이 직관적이지 않거나 길어서 바꾸고 싶을 때 사용하면 좋다
# library("dplyr") 필요

변수1$새로운컬럼명 <- 변수1$기존1 + 변수1$기존2
# 기존 컬럼들의 연산을 통해 새로운 컬럼을 생성할 수 있다

ifelse(조건,참일 때 값,거짓일 때 값)
# 조건에 따라 값을 부여하는 함수
# 기존 언어에서 조건?A:B 와 비슷한 기능을 한다
# 중첩해서도 사용 가능
ifelse(조건,참일 때 값,ifelse(조건,참일 때 값,거짓일 때 값))

2021.08.31 공부 끝

profile
Hallo welt!

0개의 댓글