강의 소개

이번 강의에서는 다음의 내용을 다루겠습니다.

  • 세상에는 어떤 종류의 데이터셋이 있는가
  • 각 데이터셋은 어떻게 생겼는가
  • 데이터의 종류는 어떻게 구분하는가
  • 시각화와 점, 선, 면

Index

  • 데이터 이해하기

    • '데이터' 시각화
    • 데이터셋의 종류
    • 데이터의 종류
  • 시각화 이해하기

    • 마크와 채널
    • 전주의적 속성

데이터 이해하기

데이터 시각화

'데이터' 시각화를 위해서는 데이터가 우선적으로 필요하며, 시각화를 진행할 데이터는 크게 두 관점에서 살펴볼 수 있다.

  • 데이터셋 과점(global)
  • 개별 데이터의 관점(local)

데이터 셋

데이터셋은 타입은 다양하며 아래와 같이 예시가 있다.

  • 정형 데이터
  • 시계열 데이터
  • 지리 데이터
  • 관계형(네트워크) 데이터
  • 계층적 데이터
  • 다양한 비정형 데이터

정형데이터

  • csv,tsv 등과 같이 테이블 형태로 제공되는 데이터
  • Row가 데이터 1개의 item
  • column은 attribute(featrue)
  • 가장 쉽게 시각화 할 수 있는 데이터셋
    • 통계적 특성과 feature 사이의 관계
    • 데이터 간 관계
    • 데이터 간 비교

시계열 데이터

  • 정형, 비정형 데이터와 상관없이 시간의 흐름에 다른 데이터
  • 시간, 주가 등 정형데이터와 음성 비디오와 같은 비정형 데이터가 존재
  • 시간 흐름에 따른 추세(Trend), 계절성(Seasonality), 주기성(Cycle) 등을 살핌

지리 데이터

  • 지리/지도 데이터
  • 지도 정보와 보고자 하는 정보 간의 조화
  • 지도 정보를 단순화 시키는 경우도 존재
  • 거리, 경로, 분포 등 다양한 실사용

관계 데이터

  • 객체와 객체 간의 관계를 시각화
    • Graph Visualization / Network Visualization
    • 지리 데이터도 관계 데이터로 바꿀 수 있으며, 데이터 자체가 Json, 2D array 등으로도 제공 될 수 있음
  • 객체는 Node로 관계는 Link로
  • 크기, 색, 수 등으로 객체와 관계의 가중치 표현
    • 많은 데이터 사이에서 어떤 식으로 효과적으로 표현할 지에 대한 맵핑 방법이 매우 중요
  • 휴리스틱하게 노드 배치를 구성

계층적 데이터

  • 관계 중에서도 포함관계가 분명한 데이터
    • 네트워크 시각화로도 표현 가능
    • 회사 조직도, 집안 관계도 등
  • Tree, Treemap, Sunburst 등이 대표적

데이터 종류

  • 데이터 종류는 다양하게 분류 가능
  • 대표적 4가지
    • 수치형
      • 연속형(continuous) : 길이, 무게, 온도 등
      • 이산형(discrete) : 주사위,눈금,사람 수 등
    • 범주형
      • 명목형(nominal) : 혈액형, 종교 등
      • 순서형(ordinal) : 학년, 별점, 등급 등

시각화 이해하기

마크와 채널

  • A mark is a basic graphical element in an image
    • 점,선,면으로 이루어진 데이터 시각화

  • A visual channel is a way to control the appearance of marks, independent of the dimensionality of the geometric primitive.
    • 각 마크를 변경할 수 있는 요소들
    • 위치, 색상, 형태, 각도, 크기, 공간, 넓이 등

전주의적 속성

  • Pre-attentive Attribute
  • 주의를 주지 않아도 인지하게 되는 요소
    • 시각적으로 다양한 전주의적 속성이 존재
  • 동시에 사용하면 인지하기 어려움
    • 적절하게 사용할 때, 시각적 분리(visual popout)
    • 예를 들어, 특정 데이터에 색상을 부여했지만, 색상을 부여하지 않은 데이터에 크기를 키운다면?, 두 가지가 강조됨
    • 이에 따라 독자가 받아들이기에 두 가지를 모두 강조했기에 어떤 차이가 있는지를 직접 이해해야 하는 문제가 발생

profile
DL, NLP Engineer to be....

0개의 댓글

Powered by GraphCDN, the GraphQL CDN