R 산점도행렬

song·2023년 6월 7일

RStudio

목록 보기
4/4

산점도 행렬은 변수간 상관관계를 한눈에 파악하기 위해 사용하는 시각화 방법이다.

사용할 수 있는 방법은 2가지가 있다.
1. plot 함수 사용하기.
2. ggplot2 사용하기.

1. plot 함수 사용

가장 간단한 방법이다!
ggplot2 시스템을 사용하지 않고 base아래에 있는 plot 함수를 사용하는 것이다.

plot(데이터셋)
-> plot(airquality[, 1:4])
1:4 -> 1~4열이라는 뜻.
지정한 이유는 산점도 행렬을 그리는 데 필요없는 변수를 제외하고 필요한 4개의 열만 지정하기 위해서이다.

2. ggplot2 사용

ggplot뿐만 아니라 GGally 패키지를 별도로 설치 및 로드가 필요하다.

ggpairs(데이터셋)
위 plot과 똑같이 plot(airquality[, 1:4]) 이렇게 작성하면 된다.

결과~

ggplot을 이용하게 되면 plot함수보다 더 많은 정보를 전달할 수 있다.
산점도뿐만 아니라 각 양적 변수에 대한 밀도곡선형태로 분포를 알 수 있고, Corr도 다 계산을 해서 보여줄 수 있다.

산점도 행렬을 처음 보게 되면 약간 어떻게 읽어야 하나 당황스러울 수 있다.
어렵지 않다!

이 산점도를 보면
①번 그래프는 OZONE변수가 y축, Solar.R변수가 x축,
②번 그래프는 OZONE변수가 y축, Wind변수가 x축,
③번 그래프는 OZONE변수가 y축, Temp변수가 x축
이렇게 이뤄져있는 것이다.
그러므로 ①번 그래프와 ④번 그래프는 x축, y축만 서로 바뀐 같은 그래프인 것을 알 수 있다.

profile
계속 나아가기

0개의 댓글