연속형 변수에 대한 시각화

Giyu·2021년 10월 22일

Data Visualization with R

목록 보기
2/10
post-thumbnail

예시 데이터 : https://www.kaggle.com/mirichoi0218/insurance


1. 1개의 연속형 변수에 대한 시각화

1개의 연속형 변수는 주로 히스토그램, 커널 밀도 곡선 그리고 박스 플롯을 통해 해당 분포를 시각화할 수 있습니다.

bmi 변수는 연속형 변수로써 히스토그램, 커널 밀도 곡선, 박스 플롯 이렇게 총 3가지 방법을 통해 시각화해보겠습니다.

ins %>% ggplot(aes(x=bmi)) + geom_histogram(fill = "skyblue")

ggplot2에서 히스토그램을 표현하기 위해서는 geom_histogram() 함수를 사용하면 되며, fill 인자에 원하는 색을 입력할 수 있으며 bins 인자를 통해 간격을 조절하여 히스토그램의 전체적인 모습을 조절할 수 있습니다.

ins %>% ggplot(aes(x=bmi)) + geom_density(fill = "skyblue", alpha = .5)

ggplot2에서 커널 밀도 곡선을 표현하기 위해서는 geom_density() 함수를 사용하면 됩니다.

geom_density() 함수의 fill 인자에 원하는 색상을 입력하고, alpha 인자를 통해 커널 밀도 곡선의 투명도를 조절하게 됩니다.

ins %>% ggplot(aes(y=bmi)) + geom_boxplot()

ggplot2에서 박스 플롯을 표현하기 위해서는 geom_boxplot() 함수를 사용하면 됩니다. 박스 플롯을 사용하게 되면 좀 더 직관적으로 연속형 변수의 분포 및 이상점 여부를 파악할 수 있습니다.


2. 2개의 연속형 변수에 대한 시각화

2개의 연속형 변수 사이의 관계를 표현하는 방법으로는 주로 산점도 혹은 상관행렬 그림 등이 있습니다.

bmi 변수와 charges 변수는 모두 연속형 변수로써 두 변수 사이의 관계를 시각화해보겠습니다.

ins %>% ggplot(aes(x=bmi, y=charges)) + geom_point(color = "black") + stat_smooth(method = "lm", se = F, color = "blue")

ggplot2에서 회귀선을 가진 산점도를 표현하기 위해서는 geom_point() 함수와 stat_smooth() 함수를 같이 사용해야 합니다.

geom_point() 함수의 color 인자를 통해 점의 색상을 변경할 수 있으며, stat_smooth() 함수의 method 인자에는 "lm"이라고 입력하여 회귀선을 추가하고 se 인자를 통해 신뢰구간의 사용 여부를 결정할 수 있으며, color 인자를 통해 회귀선의 색상 또한 변경할 수 있습니다.

library(corrgram)

corrgram(ins[, c(1,3,7)], upper.panel = panel.conf)

corrgram 패키지를 설치하면 아주 손쉽게 연속형 변수들 간의 상관관계를 시각화할 수 있습니다. corrgram() 함수에 연속형 변수들을 입력한 후, upper.panel 인자를 통해 상관계수 값을 오른쪽 상단에 표현할 수 있습니다.

library(GGally)

ggpairs(ins[, c(1,3,7)])

혹은 GGally 패키지를 설치한 후 ggpairs() 함수를 사용해도 연속형 변수들 간의 관계를 한꺼번에 표현할 수 있습니다. ggpairs() 함수는 각 연속형 변수의 분포, 다른 연속형 변수와의 산점도 및 상관계수를 하나의 그림에 표현하게 됩니다.

profile
Data Analysis Log

0개의 댓글