[R] 데이터 분석 기초

졍·2022년 10월 5일

Do it! 쉽게 배우는 R 데이터 분석 R R통계분석 데이터분석

R 프로그래밍

목록 보기

10/12

1. 데이터 파악하기

exam <- read.csv("csv_exam.csv") #데이터프레임 생성성

1) 데이터 파악할 때 사용하는 함수들

함수	설명
head( )	데이터 앞에서부터 6행까지 확인
tail( )	데이터 뒤에서부터 6행까지 확인
View( )	뷰어창에서 데이터 확인하기
dim( )	데이터가 몇 행, 몇 열로 구성되어 있는지 알아보기
str( )	속성 파악하기
summary( )	요약 통계량 산출

2) exam 데이터 파악하기

head(exam) #앞에서부터 6행까지 출력
head(exam, 10) #앞에서부터 10행까지 출력

tail(exam) #뒤에서부터 6행까지 출력
tail(exam, 10) #뒤에서부터 10행까지 출력

View(exam) #데이터 뷰어 창에서 exam 데이터 확인

dim(exam) #행, 열 출력

str(exam)

summary(exam)

3) summary를 실행해 출력되는 요약 통계량

출력값	통계량	설명
Min	최솟값	가장 작은 값
1 st Qu	1사분위수	하위 25%(1/4) 지점에 위치하는 값
Median	중앙값	중앙에 위치하는 값
Mean	평균	모든 값을 더해 값의 개수로 나눈 값
3rd Qu	3사분위수	하위 75%(3/4) 지점에 위치하는 값
Max	최댓값	가장 큰 값

4) mpg데이터 파악하기

mpg <- as.data.frame(ggplot2::mpg) #ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기

head(mpg)
tail(mpg)
dim(mpg)
str(mpg)
summary(mpg)

2. 변수명 바꾸기

1) 데이터 프레임 생성

df_raw <- data.frame(var = c(1, 2, 1),
                     var2 = c(2, 3, 2))
df_raw

2) rename 함수 이용하기 위해 dplyr 패키지 다운/로드

dplyr 패키지: 데이터를 원하는 형태로 가공할 때 사용하는 패키지

install.packages("dplyr") #설치
library(dplyr) #로드

3) 복사본 생성 및 출력

df_new <- df_raw 
df_new

4) 변수명 변경하기 (var2를 v2로 수정)

df_new <- rename(df_new, v2 = var2)
df_new

3. 파생변수 만들기

1) 변수 조합해 파생변수 만들기

2개의 변수로 구성된 데이터 프레임 생성

df <- data.frame(var1 = c(4, 3, 8),
                 var2 = c(2, 6, 1))

var_sum 파생변수 생성

df$var_sum <- df$var1 + df$var2

var_mean 파생변수 생성
(var1과 var2를 더한 후 2로 나눔.)

df$var_mean <- (df$var1 + df$var2)/2
df

2) mpg 통합 연비 변수 만들기

mpg$total <- (mpg$cty + mpg$hwy)/2

3) 조건문을 활용해 파생변수 만들기

기준값 정하기

summary(mpg$total) #요약 통계량 산출 
hist(mpg$total) #히스토그램 생성

합격 판정 변수 만들기

mpg$test <- ifelse(mpg$total >= 20, "pass", "fail") #20이상이면 pass, 그렇지 않으면 fail 부여
head(mpg, 20) #데이터 확인

빈도표로 합격 판정 자동차 수 살펴보기

table(mpg$test) #연비 합격 빈도표 생성

막대 그래프로 빈도 표현하기

library(ggplot2)
qplot(mpg$test) #연비 합격 빈도 막대 그래프 생성

4) 중첩 조건문 활용하기

tatal을 기준으로 A, B, C 등급 부여

mpg$grade <- ifelse(mpg$total >= 30, "A",
                    ifelse(mpg$total >= 20, "B", "C"))
head(mpg, 20)

빈도표, 막대그래프로 연비 등급 살펴보기

table(mpg$grade) #등급 빈도표 생성
qplot(mpg$grade) #등급 빈도 막대 그래프 생성

5) 원하는 만큼 범주 만들기

A, B, C, D 등급 부여

mpg$grade <- ifelse(mpg$total >= 30, "A",
                    ifelse(mpg$total >= 25, "B",
                           ifelse(mpg$total >= 20, "C", "D")))

졍

열심히 하는 나를 위한 기록

이전 포스트

[R] 입력/출력

다음 포스트

[R] 데이터 분석 기초

R 프로그래밍

1. 데이터 파악하기

1) 데이터 파악할 때 사용하는 함수들

2) exam 데이터 파악하기

3) summary를 실행해 출력되는 요약 통계량

4) mpg데이터 파악하기

2. 변수명 바꾸기

1) 데이터 프레임 생성

2) rename 함수 이용하기 위해 dplyr 패키지 다운/로드

3) 복사본 생성 및 출력

4) 변수명 변경하기 (var2를 v2로 수정)

3. 파생변수 만들기

1) 변수 조합해 파생변수 만들기

2개의 변수로 구성된 데이터 프레임 생성

var_sum 파생변수 생성

var_mean 파생변수 생성

2) mpg 통합 연비 변수 만들기

3) 조건문을 활용해 파생변수 만들기

4) 중첩 조건문 활용하기

5) 원하는 만큼 범주 만들기

[R] 입력/출력

[R] 데이터 가공하기

0개의 댓글