[부스트캠프 AI Tech] 3주차 Day 1

Mattaaa·2022년 2월 3일
0

[부스트캠프 AI Tech]

목록 보기
10/23

오늘 학습 내용


1. Visualization(시각화)

2. Bar, Line, Scatter Plot




1. Visualization(시각화)


데이터

수치형(Numerical) VS 범주형(Categorical)

  • 수치형

    • 연속형(Continuous) : 길이, 무게, 온도
    • 이산형(Discrete) : 주사위 눈금, 사람 수

  • 범주형

    • 명목형(Norminal) : 혈액형, 종교
    • 순서형(Ordinal) : 학년, 별점, 등급

1. 정형데이터

  • 테이블의 형태로 제공된다.

  • Row 는 1개의 Item, Column 은 Attribute 이다.

  • 가장 쉽게 시각화가 가능하며, 통계적 특성과 Attribute 간의 관계를 파악하기 유리하다.

2. 시계열데이터

  • 시간의 흐름에 따른 데이터 → Time Series

  • 기온, 주가 와 같은 정형데이터와 음성, 비디오 같은 비정형 데이터 존재

  • 시간 흐름에 따른 추세, 계절성, 주기성 파악

3. 지리/지도 데이터

  • 지도 정보 + 특정 정보간의 조화가 중요
  • 거리, 경로, 분포 등의 사용

4. 관계데이터

  • 객체와 객체 간의 관계를 시각화
  • 객체는 Node, 관계는 Link

5. 계층적데이터

  • 관계 데이터 중에서도 포함관계가 분명한 데이터
  • Tree, TreeMap, Sunburst 등으로 표현

시각화

  • Mark 는 시각화의 기본 그래픽 요소이며 Point(점), Lines(선), Area(면)이 있다.
  • Channel은 각 Mark에서 변경할 수 있는 요소 들이다

    • 위치
    • 모양
    • 크기
    • 부피
    • 기울기
  • Pre-atttentive Attribute (전주의적 속성) 은 자연스럽게 주목하게 되는 요소를 뜻한다.




2. Bar, Line, Scatter Plot

Bar Plot

  • 직사각형 막대를 이용한 그래프이며, 범주에 따른 값을 비교하기에 적합

  • Vertical, Horizontal 한 Bar Plot이 있으며, 범주가 많을 시 Horizontal이 유리

  • X축의 시작은 반드시 0

  • 그래프 표현 시, Sort(정렬)이 필수이다.

  • 여백과 공간을 조정하여 가독성을 높인다.

  • 오차 막대를 이용하여 Uncertainty 정보 추가 가능


여러개의 Bar Plot

1. Multiple Bar Plot

  • 플롯을 나누어 여러개로 그리는 방법

2. Stacked Bar Plot

  • 2개 이상의 Bar를 쌓아서 표현
  • 맨 밑의 Bar의 분포 파악은 용이하나, 다른 Bar의 분포 파악이 어려움

3. Overlapped Bar Plot

  • 각 Bar를 겹처서 그리는 방법
  • 투명도(alpha)를 조정

4. Grouped Bar Plot

  • 범주 별 Bar를 나란히 배치
  • 가장 이상적인 Bar Plot


Line Plot

  • Line Plot은 Continuous 한 값을 점으로 나타내고, 선으로 연결한 그래프

  • 수치 보다는 시계열 데이터 표현에 적합

  • 색상, 마커, 선의 종류로 구별

  • 축의 시작을 반드시 0일 필요는 없다.
    추세 파악이 목적

  • 구체적인 Line Plot 보다는 생략된 Line Plot이 유리 할 수 있다.

  • 각 값에 점으로 표시하여, 간격으로 인한 오해를 줄인다.

  • 이중 축의 사용은 지양



Scatter Plot

  • Scatter Plot은 점을 사용하며, 두 Feature 간 관계를 파악하기위한 그래프

  • 색, 마커, 크기로 구분

  • 상관 관계 (양의 상관관계 / 음의 상관관계/ 없음)

  • Cluster, Gap, Outliers

  • 인과 관계와 상관 관계는 서로 다르다.

0개의 댓글