[R] 데이터 프레임

·2022년 10월 5일
1

R 프로그래밍

목록 보기
7/12
post-thumbnail

1. 데이터 프레임 이해하기

1) 데이터 프레임이란?

  • 숫자형 벡터, 문자형 벡터 등 서로 다른 형태의 데이터를 2차원의 형태로 표현하는 자료 구조
  • 모양은 매트릭스와 차이가 없지만 동일한 자료형이 아닌 열단위로 다른 자료형을 저장할 수 있어 데이터 분석에서 활용도가 높음.
  • 열 단위가 동일한 자료 형태
  • data.frame( )

2) '열'은 속성이다.

  • 세로로 나열되는 열은 속성을 나타냄.
  • 컬럼(column) 또는 변수라고 부름.

3) '행'은 한 사람의 정보다.

  • 가로로 나열되는 행은 각 사람에 대한 정보를 보여줌.
  • Row(로) 또는 Case(케이스)라고 불림.

4) 데이터 크다 = 행이 많다 or 열이 많다.

  • 행이 많아지면?
    분석 기술 측면에서 별 다른 차이 없음.
  • 열이 많아지면?
    변수를 조합할 수 있는 경우의 수가 늘어남.
    변수가 늘어나면 단순한 분석 방법으로는 해결이 어려움, 복잡한 분석 방법 필요성
  • 따라서 행이 많아지는 것보다 열이 많아지는 것이 더 중요


2. 데이터 프레임 만들기

1) 변수 만들기

english <- c(90, 60, 60, 70) #영어 점수 변수 생성
english

math <- c(50, 60, 100, 20) #수학 점수 변수 생성성
math
  • 출력

2) english, math로 데이터 프레임 생성해서 df_midterm에 할당

df_midterm <- data.frame(english, math)
df_midterm
  • 출력

3) 정보가 추가된 데이터 프레임 만들기

class <- c(1, 1, 2, 2)
class
df_midterm <- data.frame(english, math, class)
df_midterm
  • 출력

4) 분석하기 (평균 구하기)

mean(df_midterm$english)
mean(df_midterm$math)
  • 출력

5) 데이터 프레임 한 번에 만들기

df_midterm <- data.frame(english = c(90, 80, 60, 70),
                         math = c(50, 60, 100, 20),
                         class = c(1, 1, 2, 2))
df_midterm
  • 출력


3. 외부데이터 이용하기

install.packages("readxl")
library(readxl)

1) 엑셀 파일 불러오기

df_exam <- read_excel("excel_exam.xlsx")
df_exam

2) 분석하기(평균)

mean(df_exam$english)
mean(df_exam$science)

3) csv파일

df_csv_exam <- read.csv("csv_exam.csv") #csv 파일 불러오기
write.csv(df_midterm, file = "df_midterm.csv") #csv 파일로 저장하기

4) RDS 파일

saveRDS(df_midterm, file = "df_midterm.rds") #데이터프레임 RDS파일로 저장
rm(df_midterm) 
df_midterm
df_midterm <- readRDS("df_midterm.rds")
profile
열심히 하는 나를 위한 기록

0개의 댓글