데이터분석 with R_그래프

김유림·2021년 9월 5일
0

R

목록 보기
5/5
post-thumbnail

영원히 고통 받는 INFP의 메모장입니다
> feat. 국비과정

쉽게 배우는 R 데이터 분석을 참고해 복습합니다

ggplot2

ggplot2 패키지는 그래프를 만들 때 가장 많이 사용하는 패키지다
기본적인 그래프를 보다 쉽고 아름답게 표현할 수 있다는 장점이 있다
레이어 구조로 되어 있어 배경 -> 그래프 -> 설정 순으로 레이어를 쌓는다

산점도

산점도는 연속 값으로 된 두 변수 관계를 표현할 때 사용한다

ggplot(data = mpg,aes(x = displ, y = hwy))
# 1단계. 배경을 설정한다

ggplot(data = mpg,aes(x = displ, y = hwy)) + geom_point()
# 2단계. 산점도를 추가한다

ggplot(data = mpg,aes(x = displ, y = hwy)) + 
  geom_point() +
  xlim(3,6) +
  ylim(10,30)
# 3단계. 추가적인 설정 / x 축과 y 축의 범위를 지정한 경우

막대 그래프

데이터의 크기를 막대 길이로 표현해 집단 간 차이를 표현할 때 주로 사용한다

gplot(data = df_mpg,aes(x=reorder(drv,-mean_hwy),y=mean_hwy)) +
  geom_col()
# 막대 그래프는 geom_col() 함수를 사용한다
# reorder()에 x축 변수와 정렬 기준으로 삼을 데이터 변수를 지정한다
# 변수 앞에 -를 붙이면 내림차순으로 정렬된다

빈도 막대 그래프

빈도 막대 그래프는 값의 개수로 막대의 길이를 표현한 그래프다

ggplot(data = mpg, aes(x=drv)) + geom_bar()
table(mpg$drv)
# table() 을 통해 값을 비교해보면 geom_bar() 가 
# 빈도(값의 개수)로 막대의 길이를 표현한 것을 알 수 있다

시계열 그래프

시간에 따라 달라지는 데이터를 표현할 때 주로 사용되는 그래프다

ggplot(data = economics,aes(x=date,y=unemploy)) +
  geom_line()

상자 그림

데이터의 분포를 직사각형 상자 모양으로 표현한 그래프다

ggplot(data = mpg,aes(x=drv,y=hwy)) +
  geom_boxplot()


상자 그림을 보면 전륜구동에 극단치가 존재한다는 것을 볼 수 있고
후륜구동은 데이터가 완만하게 퍼져 있는 것을 알 수 있다

참고하면 좋은 ggplot 기능

profile
Hallo welt!

0개의 댓글