게시물을 1, 2로 나눈 이유

사실 1에서 작성한 차트들은 살면서 많이 접하기도 하고 앞으로 정리할 차트들보다 상대적으로 훨씬 익숙한 형태라, 이 게시물에 내가 더 심도 있게 공부할 것들을 따로 분류하기 위해 2개로 작성했다. 파이썬으로 데이터 시각화를 할 때도 matplotlib을 활용할 때 주로 산점도 차트가 결과물인 것을 보아 좀 더 이론을 깊게 공부해야 데이터를 분석하고 인사이트 해석에 수월해질 것 같았다.

4. 관계

데이터 간의 관계를 알고 싶을 때는 산점도, 평행좌표, 네트워크 시각화 등이 있다. 산점도는 수치형 변수 두 개의 상관관계를 시각적으로 보여줄 때 주로 활용되고, 평행좌표는 다수의 수치형 변수 데이터를 하나의 시각화 차트로 비교할 때, 그리고 네트워크 시각화는 인물간 관계 같이 복잡한 관계나 상호 작용, 연결 구조를 보여줄 때 유용하다.

4-1. 산점도(scatter plot)

  • 두 변수 간의 관계를 나타내기 위해 데이터 포인트를 산포하여 표현.
  • ex) 키와 체중 간의 관계, 매출과 마케팅 비용, 인구 밀도와 범죄율 등
  • 이상치(outlier: 다른 데이터 포인트들과 비교하여 수직선을 횡단하는 위치에서 눈에 띄게 벗어나는 경우)가 있을 수 있음.(주의점)

    (출처 : Chart X: Scatter Plot of Average Weekly Wages and Change in Number of Jobs 작성자: Carsey School of Public Policy)
    위 차트는 x축에 일자리 수 변화를, y축에 주당 평균 임금을 나타내고 있고, x축과 y축 데이터 값을 좌표로 삼아 차트 영역 내 위치에 각 직업을 의미하는 점을 표현한다. 점이 분포하는 형태를 바탕으로 두 지표 간 관계를 파악할 수 있는데, 점이 분포한 형태가 왼쪽 하단에서 오른쪽 상단으로 이어지는 대각선을 띄고 있다. 이는 평균 주급이 높을 수록 일자리 수 변화가 적다는 것으로 해석할 수 있다.(비례 그래프지만 x축이 음수이므로)

4-2. 평행좌표(Parallel Coordinates)

  • 3개 이상의 수치형 변수 간 관계를 파악하기 위해 사용.
  • 각 변수를 독립적인 수직선으로 표현하므로, 여러 변수들 간의 관계를 한 눈에 파악할 수 있어 다차원 데이터를 시각화하는 데 유용하다.
  • 이상치를 쉽게 식별할 수 있다.
  • ex) 주식 데이터(다양한 주식 가격, 거래량, 시가 등), 고객 분류(나이, 성별, 소득 수준, 구매력 등) 등

    2018-19 NBA에서 pheonix suns팀이 어느 정도의 통계치인지 보여주는 차트이다. 수직선마다 측정 데이터를 y축으로 나타내고 연결하여 선으로 표현한다. 각 팀이 선으로 표시 되었다고 생각하면 이해하기 쉽다. 이 통계치들을 비교해 각 팀의 강점과 약점을 분석하고 여러 데이터 값의 상관 관계를 시각적으로 파악할 수 있다.

4-3. 네트워크 시각화(Network Visualizaion)

  • 복잡한 연결 구조를 그래프 형태로 시각화하는 방법
  • 노드(node: 개체를 나타냄. ex) 사람, 웹사이트, 단백질 등)와 엣지(edge: 개체 간의 연결 또는 관계)로 구성된 그래프를 통해 개체간의 관계, 상호작용, 네트워크 구조를 이해할 수 있다.
  • 중심성, 클러스터링, 경로 등 네트워크의 특성을 시각적으로 파악 가능하다.
  • ex) 소셜 네트워크(친구 관계, 팔로워, 정보 전파 경로 등), 생물학적 네트워크(유전자, 단백질, 신호 전달 경로 등), 인터넷 라우팅(라우터와 서버 간 연결구조로 데이터 흐름과 네트워크 경로 분석)

    (출처 : 태블로 The Marvel Social Network 작성자: Harpreet Ghuman)
    위 차트는 마블 세계관의 사회적 연결 구조를 보여주고 있다. 각 캐릭터를 선택하면 관련 있는 다른 히어로들이 나오고, 우측 상단을 보면 원의 크기가 클수록 더 연관성이 있는 것을 알 수 있다. 또한 더 구체적인 조건을 체크할 수 있도록 옵션을 걸어 하단처럼 성별 비율, 캐릭터별 강점과 약점 등 더 자세하게 분석할 수 있도록 했다.
    (참고 자료 및 출처: 뉴스젤리, chatgpt, tableau)

글 마무리

차트는 형태, 사용 목적에 따라 정말 다양하고 사용하는 방법도 다채롭다. 모든 차트를 숙지하고 있으면 당연히 좋겠지만 필요한 방식에 따라 적재적소의 차트 사용법을 아는 것만으로 충분히 데이터를 어필할 수 있을 것이다. 그래서 간단하고 자주 사용되는 것들 위주로 정리 해봤는데 필요에 따라 다른 차트들도 정리하고 심화 공부도 시도해야 겠다.

profile
Life is egg.

0개의 댓글