수치형
범주형
1. 정형데이터
테이블의 형태로 제공된다.
Row 는 1개의 Item, Column 은 Attribute 이다.
가장 쉽게 시각화가 가능하며, 통계적 특성과 Attribute 간의 관계를 파악하기 유리하다.
2. 시계열데이터
시간의 흐름에 따른 데이터 → Time Series
기온, 주가 와 같은 정형데이터와 음성, 비디오 같은 비정형 데이터 존재
시간 흐름에 따른 추세, 계절성, 주기성 파악
3. 지리/지도 데이터
- 지도 정보 + 특정 정보간의 조화가 중요
- 거리, 경로, 분포 등의 사용
4. 관계데이터
- 객체와 객체 간의 관계를 시각화
- 객체는 Node, 관계는 Link
5. 계층적데이터
- 관계 데이터 중에서도 포함관계가 분명한 데이터
- Tree, TreeMap, Sunburst 등으로 표현
Channel은 각 Mark에서 변경할 수 있는 요소 들이다
Pre-atttentive Attribute (전주의적 속성) 은 자연스럽게 주목하게 되는 요소를 뜻한다.
직사각형 막대를 이용한 그래프이며, 범주에 따른 값을 비교하기에 적합
Vertical, Horizontal 한 Bar Plot이 있으며, 범주가 많을 시 Horizontal이 유리
X축의 시작은 반드시 0
그래프 표현 시, Sort(정렬)이 필수이다.
여백과 공간을 조정하여 가독성을 높인다.
오차 막대를 이용하여 Uncertainty 정보 추가 가능
1. Multiple Bar Plot
- 플롯을 나누어 여러개로 그리는 방법
2. Stacked Bar Plot
- 2개 이상의 Bar를 쌓아서 표현
- 맨 밑의 Bar의 분포 파악은 용이하나, 다른 Bar의 분포 파악이 어려움
3. Overlapped Bar Plot
- 각 Bar를 겹처서 그리는 방법
- 투명도(alpha)를 조정
4. Grouped Bar Plot
- 범주 별 Bar를 나란히 배치
- 가장 이상적인 Bar Plot
Line Plot은 Continuous 한 값을 점으로 나타내고, 선으로 연결한 그래프
수치 보다는 시계열 데이터 표현에 적합
색상, 마커, 선의 종류로 구별
축의 시작을 반드시 0일 필요는 없다.
→ 추세 파악이 목적
구체적인 Line Plot 보다는 생략된 Line Plot이 유리 할 수 있다.
각 값에 점으로 표시하여, 간격으로 인한 오해를 줄인다.
이중 축의 사용은 지양
Scatter Plot은 점을 사용하며, 두 Feature 간 관계를 파악하기위한 그래프
색, 마커, 크기로 구분
상관 관계 (양의 상관관계 / 음의 상관관계/ 없음)
Cluster, Gap, Outliers
인과 관계와 상관 관계는 서로 다르다.