범주형 변수에 대한 시각화

Giyu·2021년 10월 21일

Data Visualization with R

목록 보기
1/10
post-thumbnail

예시 데이터 : https://www.kaggle.com/mirichoi0218/insurance


1. 1개의 범주형 변수에 대한 시각화

1개의 범주형 변수에 대한 시각화는 주로 막대그래프를 사용하는 방법이 가장 효율적이고 보기도 좋습니다. 예시 데이터에서 region 변수는 4개의 level로 이루어진 범주형 변수입니다.

ins %>% ggplot(aes(x=region, fill = region)) + geom_bar()

범주형 변수 region의 level별 분포를 막대그래프로 한 눈에 파악할 수 있습니다. ggplot2에서 막대그래프를 구현하기 위해서는 geom_bar() 함수를 추가로 사용하면 되며, level별로 색깔을 구분하기 위해서는 fill 인자에 범주형 변수를 추가하면 됩니다.


2. 2개의 범주형 변수에 대한 시각화

2개의 범주형 변수에 대한 시각화 또한 막대그래프를 사용하거나, 혹은 모자이크 그림으로 표현할 수 있습니다.

먼저 막대그래프로 2개의 범주형 변수 사이의 관계를 시각화하겠습니다. region 변수와 sex 변수 모두 각각 4개의 level, 2개의 level을 갖는 범주형 변수입니다.

ins %>% ggplot(aes(x=region, fill = sex)) + geom_bar()

x인자에 첫 번째 범주형 변수를 기입하고 fill 인자에 두 번째 범주형 변수를 기입한 후 geom_bar() 함수를 사용하면 2개의 범주형 변수에 대한 막대그래프를 구현할 수 있습니다.

혹은 모자이크 그림을 사용하여 표현할 수도 있습니다. ggplot2에서 모자이크 그림을 구현하려면 ggmosaic 패키지를 추가로 설치해야 합니다.

ggplot(data = ins) +
  geom_mosaic(aes(x = product(region), fill=sex))

geom_mosaic() 함수의 x 인자에 첫 번째 범주형 변수를 넣어주되 product() 함수로 감싸주어야 한다는 것이 특징입니다. 그리고 fill 인자에 두 번째 범주형 변수를 넣고 실행하게 되면 ggplot2를 통해 모자이크 그림을 구현할 수 있습니다.

profile
Data Analysis Log

0개의 댓글