R 6일차

유현민·2021년 7월 24일

R언어 공부

목록 보기

6/13

외부 데이터 이용하기

다운 받은 데이터 파일을 프로젝트 폴더에 넣는다.
readxl 패키지 설치하고 로드

install.packages("readxl")
library(readxl)

엑셀 파일 불러기

df_exam <- read_excel("excel_exam.xlsx")	#엑셀 파일을 불러와 df_exam에 할당
df_exam

##	id  class  math  english  science

##	1   1	   50	 98		  50
##	2   1	   60	 97		  60
##	3   1	   45	 86		  78
##	4   1	   30	 98		  58
##	5   2	   25	 80		  65
....

분석하기
영어 점수와 과학 점수 평균

mean(df_exam$english)

## [1] 84.9

mean(df_exam$science)

##[1] 59.45

엑셀 파일 첫 번째 행이 변수명이 아니면?

원래 엑셀 파일은 첫 번째 행에 변수명이 입력되어 있다. read_excel()은 기본적으로 엑셀 파일의 첫 번째 행을 변수명으로 인식해 불러온다.
만약 첫 번째 행이 변수명이 아니라면 첫 번째 행의 데이터가 유실된다.

첫 번째 행 데이터로 인식하기

col_names = F => 변수명을 x__숫자로 자동으로 결정해준다.

엑셀 파일에 시트가 여러 개?

sheet 파라미터를 이용해 몇 번째 시트의 데이터를 불러올지 결정 가능

df_exam_sheet <- read_excel("excel_exam_sheet.xlsx", sheet = 3)

CSV 파일 불러오기

프로젝트 폴더에 CSV 파일 삽입하기
read.csv()

df_csv_exam <- read.csv("csv_exam.csv")
df_csv_exam

##   id class math english science
##1   1     1   50      98      50
##2   2     1   60      97      60
##3   3     1   45      86      78
##4   4     1   30      98      58
##5   5     2   25      80      65
...

문자가 들어 있는 파일을 불러올 때는 stringsAsFactors = F

df_csv_exam <- read.csv("csv_exam.csv", stringAsFactors = F

데이터 프레임을 CSV 파일로 저장하기

데이터 프레임 만들기

df_midterm <- data.frame(english = c(90, 80, 60, 70),
			 math = c(50, 60, 100, 20),
             		 class = c(1, 1, 2, 2))
                     
df_midterm

##   english  math  class
## 1      90   50     1
## 2      80   60     1
## 3      60  100     2
## 4      70   20     2

CSV 파일로 저장하기
write.csv()를 이용하여 저장한다.

write.csv(df_midterm, file = "df_midterm.csv")

RData 파일 활용하기

RData는 R 전용 데이터 파일이다.
다른 파일에 비해 읽고 쓰는 속도가 빠르고 용량이 작다는 장점이 있다.
1. 데이터 프레임을 RData 파일로 저장하기

save(df_midterm, file = "df_midterm.rda")

RData 파일 불러오기

rm(df_midterm)	#데이터 프레임 삭제

df_midterm
## error

load("df_midterm.rda")

df_midterm

##   english  math  class
## 1      90   50     1
## 2      80   60     1
## 3      60  100     2
## 4      70   20     2

RData는 가져와서 바로 사용 가능하지만 csv, excel은 가져와서 변수에 할당해줘야 사용할 수 있다.

df_exam <- read_excel("excel_exam.xlsx")

df_csv_exam <- read.csv("csv_exam.csv")

load("df_midterm.rda")

유현민

smilegate

이전 포스트

R 5일차

다음 포스트