공부 내용
- Scatterplot
- 정확한 Scatterplot
Scatterplot
Scatterplot이란?
- 점을 사용하여 두 feature 간 관계를 알기 위해 사용
- 산점도라고도 부름
- 직교 좌표계에서 x축/y축에 feature 값 매핑
.scatter()
사용
Scatterplot의 요소
- 색(color)
- 모양(marker)
- 크기(size)
Scatterplot의 목적
- 상관관계 확인
- 양의 상관관계 / 음의 상관관계 / 상관관계 없음
정확한 Scatterplot
Overplotting
점이 많아지면 점의 분포를 파악하기 힘듦
- 해결책
- 투명도 조정
- 지터링(jittering) : 점의 위치를 약간씩 변경
- 2차원 히스토그램 : 히트맵을 사용하여 깔끔한 시각화
- Contour plot : 분포를 등고선을 사용해서 표현
점의 요소 및 인지
- 색
- 연속은 gradient, 이산은 개별 색상 사용
- 크기
- 점 크기 조절한 차트를 버블 차트 (bubble chart)라고 부름
- 구별하기는 쉬우나 오용될 수 있음 -> 원의 크기 비교가 어려움
- 관계보다는 각 점간 비율에 초점을 둘 것
- SWOT 분석 등에 사용
인과 관계와 상관관계
- 인과 관계 (causal relation)과 상관 관계는 다르다!
-> 상관관계가 있다고 인과관계가 있는 것은 아님
- 인과 관계가 있다면 사전 정보와 함께 명시 필요
- heatmap을 통해 상관관계 표현 가능
추세선
- 추세선 사용을 통해 scatter의 패턴 파악 가능
-> 추세선이 2개 이상인 경우 가독성이 떨어질 수 있음
ETC
- 범주형이 포함된 관계에서는 heatmap이나 bubble chart 사용 추천