분석결과 시각화

-·2022년 4월 8일
0

빅분기

목록 보기
3/5

데이터의 유형

범주형

명목형 데이터(Nominal Data)
특정 카테고리가 가질 수 있는 값의 집합을 의미한다.
순서를 매길 수 없지만 셀 수 있다.
예시 : 성별, 색깔, 취미, 혈액형 등

순서형 데이터(Ordinal Data)
특정 카테고리가 가질 수 있는 값이 순서로 구분할 수 있는 데이터를 의미한다.
순서를 매길 수 있고 셀 수 있다.
예시 : 5점 척도, 학점 등

수치형

이산형 데이터(Discrete Data)
셀 수 있는 형태의 값을 표현하는 자료로 주로 정수값으로 표현된다.
예시 : 반별 학생수, 불량품수, 나이 등

연속형 데이터(Continuous Data)
연속인 어떤 구간에서 값을 취하는 자료로 주로 측정되는 양을 표현하는데 사용된다.
예시 : 시간, 온도, 무게, 길이 등

주요 유형

탐색적자료분석(EDA), 차트, 데이터셋, 축(Axis), 스케일(Scale), 범례(Legend), 이상치(Outliers)

스케일
: 그래프에 표현되는 데이터 값의 범위를 말하며, 각각의 축에 일정한 간격을 가지고 표시된다.

범례
: 차트에 표현되고 있는 기호나 선 등이 어떤 의미인지 설명하는 역할

데이터 시각적 속성

데이터 시각화는 체계적이고 논리적인 방식을 통해 데이터 값을 시각적 속성으로 변환한 다음, 그 속성들을 이용해서 최종 그래프를 만든다.

데이터 값을 정량화 가능한 시각적 속성으로 나타내 그래픽으로 표현한다.

자주 사용되는 시각적 속성은 위치, 형태, 크기, 색, 굵기, 선 유형등이 있다. (형태, 선 유형 속성은 이산형 데이터에 주로 적용된다.)

데이터 시각화 방법

시간 시각화: 막대그래프, 누적막대그래프, 점/선 그래프
분포 시각화: 히스토그램,파이차트,도넛차트,트리맵,누적연속그래프
관계 시각화: 산점도, 버블차트, 히트맵
비교 시각화: 히트맵, 체르노프페이스, 스타차트, 평행좌표계,다차원척도법
공간 시각화: 지도매핑

시간 시각화

시간에 따른 데이터의 변화를 표현하는 것으로 일정기간에 걸쳐 진행되는 변화와 트랜드를 추적하는데 주로 사용된다.

  • 데이터의 경향성(트렌드)를 파악하는데 주로 사용된다.
  • 시간데이터는 특정 시점의 값을 표현하는 이산형과 변화하는 값을 표현하는 연속형으로 구분할 수 있으며, 시간데이터의 전후관계를 분석하는 것이 핵심이다.

이산형(분절형)
특정 시점 또는 특정 시간의 구간 값을 표현한다.
도구 : 막대그래프, 누적막대그래프, 묶은막대그래프, 점그래프

연속형
어떤 구간에서 지속적으로 변화하는 값을 표현한다.
도구 : 꺾은선그래프, 계단그래프, 추세선

이산형

막대 그래프

  • 데이터 값을 길이로 표현하는 막대를 배치함으로써 상대적인 차이를 한눈에 알아볼 수 있도록 표현
  • 시간축(가로, x축)은 주로 시간순서대로 정렬된 특정 시점을 나타내며, 값(세로, y축)은 그래프의 크기(범위)를 나타낸다.
  • 막대에색상을 표시함으로써 데이터의 상태나 특징을 다르게 표현할 수 있다.
  • 데이터 값은 막대의 길이에만 영향을 미치며, 막대의 폰이나 간격과는 무관하다.

누적 막대 그래프

  • 막대그래프가 하나의 변수에 따라 달라지는 형태를 보이는 반면에 누적막대그래프는 두 개 이상의 변수를 동시에 다루는 경우에 막대의 영역을 구분하여 나머지 변수의 값을 표현한다.
  • 하나의 막대를 구성하는 세부 항목 각각의 값과 전체의 합을 함께 표현할 때 유용하다.

묶은 막대 그래프

  • 묶은 막대 그래프는 누적막대그래프와 같이 두개이상의 변수를 동시에 다루는 경우에 사용하며 첫번째 변수(x축)의 각 위치에 나머지 변수의 값을 각각의 막대로 표현한다.
  • 그래프를 구성하는 세부항목의 값의 변화를 표현할 수 있지만, 변수의 누적합계나 추이를 파악하기는 어렵다.

점 그래프

  • 가로축에 대응하는 세로축의 값을 점으로 표시한 그래프로 면적을 표시할 필요가 없기 때문에 적은 공간에 푷현할 수 있으며, 점의 집중 정도와 배치에 따라 흐름을 파악하기가 용이하다.
  • 가로축을 시간으로 세로축의 값을 점으로 표시하는 경우 시간의 흐름에 따른 값의 변화를 표현할 수 있다.

연속형

꺾은선 그래프(연속 시계열그래프)

  • 점그래프에서 점과 점사이를 선으로 연결한 그래프로 데이터의 연속된 특성을 표현한다.
  • 경향성을 뚜렷하게 보여주기 위해서 주로 사용한다.
  • 세로축의 길이를 늘리거나 가로축의 길이를 짧게 죽이면 변화가 급격하게 보여지며, 가로축의 길이를 너무 길게하면 변화의 패턴이 잘 나타나지 않는다.
  • 경우에 따라서 그래프에서 점을 표시하지 않을 수도 있다.

계단 그래프

  • 계단그래프는 점과 점사이를 직접 연결하는 것이 아니라 변화가 생길때까지 일정한 선을 유지하다가 다음값으로 바뀌는 지점에서 급격하게 변화하는 것을 표현한다.
  • 꺾은선 그래프는 데이터의 연속된 변화를 표현하기에 적합하고, 특정시점에서의 변화를 표현하는 데에는 계단 그래프가 유리하다.
  • 연도별 법인세율 변화, 연도별 최저임금 변화 등에 이용한다.

추세선

  • 추세선은 데이터 값의 즉각적인 변화보다는 변화하는 경향성을 보여주는 직선 또는 곡선을 말한다.
  • 추세선의 데이터에 대해 다양한 함수를 적용해서 구할 수 있으며, 지수형, 로그형, 선형, 이동평균형 등이 있다.
profile
-

0개의 댓글