[TIL] 데이터 시각화

JaeungE·2022년 7월 4일
0

TIL

목록 보기
26/29
post-thumbnail

데이터 시각화란


  • 수많은 데이터 속에서 유의미한 정보를 찾고, 시각화 하는 것

  • 데이터를 한 눈에 파악하기 좋게 만들어준다.

  • 데이터의 패턴, 비교 등을 파악하고, 시각화를 통한 인사이트를 얻을 수 있다.



데이터 시각화 기획


크게 데이터, 독자, 구성 세 가지로 나뉜다.


데이터

  • 당연하게도 데이터를 보여주려면 데이터가 필요

  • 더 나아가 풍부하고 유용한 데이터가 필요하다.


독자

  • 흥미와 필요 정도를 고려해서 독자의 범위를 선정해야 한다.

  • 독자가 어떤 정보를 원하는지 요구 사항을 파악해야 한다.


구성

내용 구성은 데이터에서 출발하는 것과, 분석에서 출발하는 것으로 나뉜다.


데이터에서 출발

  • 데이터에 대한 복잡한 분석 과정이나, 의미 해석 없이 데이터에서 바로 측정 가능한 수치 값을 이용해서 시각화 하는 방식

  • 데이터 그 자체를 내용으로 구성하게 된다.

  • 주로 수치정보를 필요로 하는 대시보드, 모니터링 시스템에서 사용한다.


분석에서 출발

  • 데이터에서 보이는 양상으로 소결을 만들며, 데이터 분석과 증명을 반복하고 의미있는 결론을 도출해서 시각화 하는 방식.

  • 분석으로 도출된 결론과, 그 일련의 과정을 내용으로 구성하게 된다.

  • 분석 과정과 결론을 시각화 하기 때문에, 주로 스토리 텔링 방식으로 진행된다.


좋은 데이터 시각화

심미성과 명료함을 두루 갖춘, 명료하고 보기 좋은 시각화가 좋은 데이터 시각화다.


  • 심미성과 명료성 중 우선 순위를 따져야 한다면 명료성을 우선하자.

  • 주제에 따른 필요한 정보만을 보여주도록 한다.

  • 인지를 해치지 않는 적절한 시각적 구성을 가지도록 하자.



구성 요소


데이터 시각화의 구성 요소는 데이터 측면, 시각적 측면으로 나뉜다.


데이터 측면

데이터 셋

  • 차트에 사용되는 데이터 전부를 의미

  • 테이블이라고 부르기도 한다.

  • 데이터 변수(Column), 데이터 값(Value)이 존재한다.


데이터 변수

정량적(Quantitative) 속성과, 정성적(Qualitative) 속성으로 나뉜다.


  • 정량적 속성
    • 숫자형 데이터, 통계 및 계산이 가능하다. (1, 0.36, 100...)
    • 중간 값이 있는 연속형 데이터, 중간 값이 없는 이산형 데이터로 구분된다.

  • 정성적 속성
    • 범주형 데이터, 숫자로 환산할 수 없다. (등급, 동물, 만족도, 성별, 지역...)
    • 순서가 있는 순위형 데이터, 순서가 없는 명목형 데이터로 구분된다.

시각적 측면

시각적 속성

  • 시각적 측면에서 차트를 구성하는 작은 단위를 시각적 속성이라고 한다.

  • 위치, 형태, 크기, 색, 선 굵기, 선 유형 등...


두 요소를 연결

척도(Scale)

  • 데이터와 시각적 속성과의 연결 방식을 정의

  • 데이터 값 마다 단 하나의 시각적 속성이 1:1로 대응되어야 한다.

  • 위치 스케일색상 스케일이 주로 사용된다.


위치 스케일

  • 차트 안에서 데이터 값들의 위치를 결정해서 좌표계 위에 보여준다.

  • 좌표계는 위치 스케일을 모은 하나의 집합, 주로 직교 좌표계를 사용한다.


색상 스케일

  • 데이터 군을 구분하기 위한 스케일

    • 정성적 색상 스케일
      • 범주마다 서로 다른 색을 지정해주는 스케일
      • 순서가 없는 범주형 데이터를 구분하기 위해 사용한다.

  • 데이터 값을 나타내기 위한 스케일

    • 순차적 색상 스케일

      • 순서를 부여해서 값의 크기 차이나, 두 값 간의 거리를 보여주기 위해 사용한다.

    • 발산형 색상 스케일

      • 순차적 스케일 두개를 중간점에서 연결한 스케일
      • 중간점은 연한 색으로 나타낸 뒤, 양쪽으로 균일한 차이로 점점 짙은 색으로 나타낸다.

  • 데이터 값을 강조하기 위한 스케일
    • 강조 색상 스케일
      • 강조색을 사용해서 차트에서 주제에 대한 핵심 정보를 강조


어떤 색상을 사용해야 할지 잘 모르겠다면, ColorBrewer를 참고하자.



종류


수량 데이터 시각화

  • 주로 표, 막대 차트를 이용해서 시각화 한다.

  • 여러 범주의 수량을 보여주려면 묶은 막대, 멀티 차트, 누적 막대를 이용하는 것이 좋다.


비율 데이터 시각화

  • 파이 차트, 누적 막대를 이용해서 시각화 한다.

  • 여러 범주의 비율은 멀티 차트, 모자이크 도표, 트리 맵을 이용한다.


시계열 & 추세 데이터 시각화

  • 주로 선 그래프로 나타내며, 범주가 두 개 이상인 경우 선 그래프에 색, 라벨, 범례를 덧붙여서 나타낸다.

지리 공간 데이터 시각화

  • 대표적으로 단계구분도를 사용한다.

  • 굳이 지도의 형태를 사용하지 않고, 카토그램 혹은 카토그램 히트맵으로 표현하기도 한다.


Fundametals of Data Visualization에서 다양한 종류의 차트들을 살펴볼 수 있다.





참고 자료

Fundametals of Data Visualization

0개의 댓글