Scatterplot

yst3147·2022년 2월 6일
0

공부 내용

  • Scatterplot
  • 정확한 Scatterplot

Scatterplot

Scatterplot이란?

  • 점을 사용하여 두 feature 간 관계를 알기 위해 사용
  • 산점도라고도 부름
  • 직교 좌표계에서 x축/y축에 feature 값 매핑
  • .scatter() 사용

Scatterplot의 요소

  1. 색(color)
  2. 모양(marker)
  3. 크기(size)

Scatterplot의 목적

  • 상관관계 확인
    • 양의 상관관계 / 음의 상관관계 / 상관관계 없음

  • 군집, 값 사이의 차이, 이상치 확인

정확한 Scatterplot

Overplotting

점이 많아지면 점의 분포를 파악하기 힘듦

  • 해결책
    • 투명도 조정
    • 지터링(jittering) : 점의 위치를 약간씩 변경
    • 2차원 히스토그램 : 히트맵을 사용하여 깔끔한 시각화
    • Contour plot : 분포를 등고선을 사용해서 표현

점의 요소 및 인지

    • 연속은 gradient, 이산은 개별 색상 사용

  • 마커
    • 거의 구별하기 힘듦
    • 크기가 고르지 않음

  • 크기
    • 점 크기 조절한 차트를 버블 차트 (bubble chart)라고 부름
    • 구별하기는 쉬우나 오용될 수 있음 -> 원의 크기 비교가 어려움
    • 관계보다는 각 점간 비율에 초점을 둘 것
    • SWOT 분석 등에 사용

인과 관계와 상관관계

  • 인과 관계 (causal relation)과 상관 관계는 다르다!
    -> 상관관계가 있다고 인과관계가 있는 것은 아님
  • 인과 관계가 있다면 사전 정보와 함께 명시 필요
  • heatmap을 통해 상관관계 표현 가능

추세선

  • 추세선 사용을 통해 scatter의 패턴 파악 가능
    -> 추세선이 2개 이상인 경우 가독성이 떨어질 수 있음

ETC

  • Grid는 사용 안하는것 추천
    • 사용한다면 최소한으로 사용
    • 색은 무채색 사용

  • 범주형이 포함된 관계에서는 heatmap이나 bubble chart 사용 추천

0개의 댓글