[R] 데이터 분석 기초

·2022년 10월 5일
1

R 프로그래밍

목록 보기
10/12
post-thumbnail

1. 데이터 파악하기

exam <- read.csv("csv_exam.csv") #데이터프레임 생성성

1) 데이터 파악할 때 사용하는 함수들

함수설명
head( )데이터 앞에서부터 6행까지 확인
tail( )데이터 뒤에서부터 6행까지 확인
View( )뷰어창에서 데이터 확인하기
dim( )데이터가 몇 행, 몇 열로 구성되어 있는지 알아보기
str( )속성 파악하기
summary( )요약 통계량 산출

2) exam 데이터 파악하기

head(exam) #앞에서부터 6행까지 출력
head(exam, 10) #앞에서부터 10행까지 출력

tail(exam) #뒤에서부터 6행까지 출력
tail(exam, 10) #뒤에서부터 10행까지 출력

View(exam) #데이터 뷰어 창에서 exam 데이터 확인

dim(exam) #행, 열 출력

str(exam)

summary(exam)

3) summary를 실행해 출력되는 요약 통계량

출력값통계량설명
Min최솟값가장 작은 값
1 st Qu1사분위수하위 25%(1/4) 지점에 위치하는 값
Median중앙값중앙에 위치하는 값
Mean평균모든 값을 더해 값의 개수로 나눈 값
3rd Qu3사분위수하위 75%(3/4) 지점에 위치하는 값
Max최댓값가장 큰 값

4) mpg데이터 파악하기

mpg <- as.data.frame(ggplot2::mpg) #ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기

head(mpg)
tail(mpg)
dim(mpg)
str(mpg)
summary(mpg)


2. 변수명 바꾸기

1) 데이터 프레임 생성

df_raw <- data.frame(var = c(1, 2, 1),
                     var2 = c(2, 3, 2))
df_raw

2) rename 함수 이용하기 위해 dplyr 패키지 다운/로드

  • dplyr 패키지: 데이터를 원하는 형태로 가공할 때 사용하는 패키지
install.packages("dplyr") #설치
library(dplyr) #로드

3) 복사본 생성 및 출력

df_new <- df_raw 
df_new 

4) 변수명 변경하기 (var2를 v2로 수정)

df_new <- rename(df_new, v2 = var2)
df_new


3. 파생변수 만들기

1) 변수 조합해 파생변수 만들기

  • 2개의 변수로 구성된 데이터 프레임 생성

df <- data.frame(var1 = c(4, 3, 8),
                 var2 = c(2, 6, 1))
  • var_sum 파생변수 생성

df$var_sum <- df$var1 + df$var2
  • var_mean 파생변수 생성

    (var1과 var2를 더한 후 2로 나눔.)
df$var_mean <- (df$var1 + df$var2)/2
df

2) mpg 통합 연비 변수 만들기

mpg$total <- (mpg$cty + mpg$hwy)/2

3) 조건문을 활용해 파생변수 만들기

  • 기준값 정하기
summary(mpg$total) #요약 통계량 산출 
hist(mpg$total) #히스토그램 생성 
  • 합격 판정 변수 만들기
mpg$test <- ifelse(mpg$total >= 20, "pass", "fail") #20이상이면 pass, 그렇지 않으면 fail 부여
head(mpg, 20) #데이터 확인 
  • 빈도표로 합격 판정 자동차 수 살펴보기
table(mpg$test) #연비 합격 빈도표 생성 
  • 막대 그래프로 빈도 표현하기
library(ggplot2)
qplot(mpg$test) #연비 합격 빈도 막대 그래프 생성

4) 중첩 조건문 활용하기

  • tatal을 기준으로 A, B, C 등급 부여
mpg$grade <- ifelse(mpg$total >= 30, "A",
                    ifelse(mpg$total >= 20, "B", "C"))
head(mpg, 20)
  • 빈도표, 막대그래프로 연비 등급 살펴보기
table(mpg$grade) #등급 빈도표 생성
qplot(mpg$grade) #등급 빈도 막대 그래프 생성 

5) 원하는 만큼 범주 만들기

  • A, B, C, D 등급 부여
mpg$grade <- ifelse(mpg$total >= 30, "A",
                    ifelse(mpg$total >= 25, "B",
                           ifelse(mpg$total >= 20, "C", "D")))
profile
열심히 하는 나를 위한 기록

0개의 댓글