Scatter Plot
- 흔히 점을 사용하여 두 feature 간의 관계를 알기 위해 사용하며, 산점도라 불린다.
- scatter는 기본적으로 2차원적인 데이터를 표현하는데, 색, 모양, 크기를 통해 차원을 늘려 갈 수 있다.
- 주로 상관관계를 확인하거나 군집, 값 사이의 차이, 이상치 등 데이터의 분포를 확인하는데 사용한다.
정확한 scatter plot
Overplotting
- 점이 많아질수록 점의 분포를 파악하기 힘든데, 다음의 4가지 경우로 조금 더 파악하기 쉽게 만들 수 있다.
- 투명도 조정
- 지터링(jittering) : 점의 위치를 약간씩 변경
- 2차원 히스토그램 : 히트맵을 사용하여 깔끔하게 시각화
- Contour plot : 분포를 등고선을 사용하여 표현

점의 요소와 인지
- 색
- 연속은 gardient, 이산은 개별 색상으로 표시
- 마커
- 마커는 크기가 고르지 않으며, 마커로만 구별하기는 거의 힘들다
- 크기
- 흔히 버블 차트라고 부르는데 구별하기는 쉽지만 실제 크기의 차이와 점의 크기는 차이가 있기 때문에 오용하기 쉽다는 단점이 있다
ax.scatter(x, y,
s= s,
c='white',
marker='o',
linewidth=1,
edgecolor='black')
인과관계와 상관관계
- 상관관계와 인과관계는 분명히 다르고, 상관관계가 있다고 하여 반드시 인과관계가 있는 것은 아니기 때문에 분석에 주의해야 한다.
- 인과 관계는 우리의 추측 또는 도메인 정보와 같은 사전 정보를 가정으로 제시해야 한다.
추세선
- 추세선을 통해 scatter의 패턴을 유추할 수 있으며, 하나의 그룹의 전체적인 분포를 살필 때만 사용하는 것을 추천
- 두 개 이상의 그룹이 되면 가독성이 떨어질 수 있다.

ETC
- Grid
- 점과 선이 겹치게 되면 정보가 오용될 수 있기 때문에 최소한으로 사용하고, 사용하더라도 무채색으로 사용하는 것을 추천한다
- 범주형이 포함된 관계에서는 heatmap 또는 bubble chart를 추천