[Boostcamp 3주차] Data Viz - Intro

yoonene·2022년 2월 4일
0

Boostcamp AI Tech

목록 보기
15/27

데이터셋의 종류

  • 정형 데이터
  • 시계열 데이터
  • 지리 데이터
  • 관계형(네트워크) 데이터
  • 계층적 데이터
  • 다양한 비정형 데이터

정형 데이터

  • csv, tsv 등으로 제공되는 테이블 형태의 데이터
  • Row - data(item)
  • Column - attribution(feature)
  • 가장 쉽게 시각화할 수 있음

시계열 데이터

  • 시간의 흐름에 따른 데이터셋
  • 주가, 기온 등 정형 데이터와 음성, 비디오 등 비정형 데이터 존재
  • 추세(Trend), 계절성(Seasonality), 주기성(Cycle) 등 관찰

지리 데이터

  • 지도 정보와 주목하고자 하는 정보 간의 조화 요구
  • 거리, 경로, 분포 등 다양하게 사용됨

관계(네트워크) 데이터

  • Entity - Node
    Relationship - Link
  • Entity와 Entity 간의 Relationship을 시각화
  • 크기, 색, 수 등으로 가중치 표현

계층적 데이터

  • 조직도 등 포함관계가 분명한 데이터
    (네트워크로도 표현 가능)
  • Tree, Treemap, Sunburst 등의 시각화 방법

데이터의 종류

네 가지로 분류

  • 수치형 (numerical)
    • 연속형 (continuous) : 실수값 -> 셀 수 없음.
    • 이산형 (discrete) : 실수값 X -> 셀 수 있음.
  • 범주형 (categorical)
    • 명목형 (norminal) : 순서에 의미 X
    • 순서형 (ordinal) : 순서가 중요

Mark & Channel

  • mark : 점(points), 선(lines), 면(areas)으로 구성된 데이터 시각화
  • channel : 각 마크를 변경할 수 있는 요소 (positions, color, shape, tilt, size..)
    => 전주의적 속성(Pre-attention Attribute) 때문에 mark와 channel을 적절하게 사용해야 시각적 분리(visual popout)가 가능함.
profile
NLP Researcher / Information Retrieval / Search

0개의 댓글