데이터 시각화란 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것이다.
시각화를 할 때에는 다음의 요소를 고려해야 한다.
데이터 시각화를 하기 위해서는 우선적으로 데이터가 필요하다.
특히 데이터를 데이터셋 관점(global)에서 시각화를 할 것인지, 개별 데이터의 관점(local)에서 할 것인지 생각해야 한다.
데이터 셋의 종류
- 정형 데이터: 테이블 형태(csv, tsv)
각 Row가 하나의 item. Column은 feature(attribute).- 시계열 데이터: 시간 흐름에 따른 데이터(Time-Series).
시간의 흐름에 따른 추세(Trend), 계절성(Seasonality), 주기성(Cycle) 등을 조사.
- 정형데이터: 기온, 주가
- 비정형 데이터: 음성, 비디오
- 지리 데이터: 거리, 경로, 분포 등
지도 정보, 원하는 정보의 조화가 중요.- 관계형(네트워크) 데이터: 객체와 객체 간의 관계를 시각화(Graph, Network)
객체는 Node로, 관계는 Link로 표현.
크기, 색, 수 등으로 객체와 관계의 가중치 표현.- 계층적 데이터: 관계 중에서도 포함관계가 분명한 데이터.(Network)
Tree, Treemap, Sunburst 등.- 비정형 데이터 ...
데이터의 종류
- 수치형(numerical)
- 연속형(continuous): 길이, 무게, 온도 등
- 이산형(discrete): 주사위 눈금, 사람 수 등
- 범주형(categorical)
- 명목형(norminal): 혈액형, 종교 등
- 순서형(ordinal): 학년, 별점, 등급 등
위와 같이 데이터에 대해 간략하게 알아보았다. 이제 시각화를 진행할 때 우리가 신경 써야하는 요소들을 살펴보면 다음과 같다.
마크와 채널
- 마크(mark): 점(points), 선(lines), 면(areas)로 이루어진 데이터를 시각화하는 기본적인 구성 요소이다.
- 채널(channel): 각 마크에 대해 변경할 수 있는 요소들이다. (Position, Color, Shape, Tilt, Size 등)
Pre-attentive Attribute
주의를 주지 않아도 인지하게 되는 요소이며 다양한 속성이 해당된다.
주의할 점은, 동시에 여러 속성을 사용하면 인지하기가 오히려 어려워 진다는 점이다.
따라서 적절하게 사용하여 시각적 분리(visual popout)을 이뤄내야 한다.
ex) Orientation, Length, Width, Size, Shape, Curvature, Added Marks, Enclosure, Contrast, Colour, Position, Spatial Grouping ...