Data Science - 일변량 시각화 탐색

cosmosJ·2024년 2월 13일

Data Science 데이터 사이언스

데이터 분석

목록 보기

14/26

일변량 시각화 탐색

하나의 변수로 구성된 데이터를 전체적인 관점에서 파악할 수 있는 데이터 탐색 유형

단일 변수 데이터를 다양한 그래프로 시각화하여 데이터의 형상을 파악하고, 전체적인 관점에서 데이터를 살펴 분석에 활용하는 것이 목적이다. (단일 변수이므로, 원인과 결과를 다루지는 않음)

시각화 특징

시각화와 비시각화는 결국 이미지화 하는지의 여부이다.

시각화와 비시각화는 아래와 같은 특징을 가진다.

시각화
특정 값이나, 빈도 등을 통해 데이터를 파악하는 것이 아니므로, 데이터의 전체적인 형상의 파악을 목적으로 한다
- 직관적 이해 추구
- 정보 전달 시간 단축
비시각화
특정 값이나 빈도 등을 통해 데이터를 파악하는 방법이므로, 데이터의 형상이나 분포를 파악하기는 어려움
- 그러나, 효과적인 데이터 요약으로
- 빠른 데이터 성격 파악이 가능하다.

2가지 모두 데이터 탐색을 위해 거쳐야 하는 방안들이며, 각 방안들마다 목적이 다름을 인지하면 된다.

범주형 시각화

파이 차트

파이 차트는 범주형 데이터의 빈도를 비율로 환산하여, 해당 비율을 부채꼴로 표현한 시각화 차트이다.

범주별 구성의 차이를 개략적으로 볼 수 있는 차트로, 전반적인 비율 파악을 용이하게 할 수 있다.
간단하고, 이해하기 쉬운 그림이므로, 기존에 데이터에 대한 정보가 없는 사람에게 효과적이다.
범주 별 크기가 유사한 경우, 우위를 따지기 어려우며, 범주가 많은 경우에도 시각적 전달 효과가 떨어지는 단점을 가진다.
- 이를 방지하기 위해서는, 범주을 묶어 범주 수를 줄여 다시 표현하는 방안이 있다.
- ex. 특정 범주의 비중이 전체 대비 얼마인지 확인하려면, 특정 범주를 제외한 나머지를 하나로 묶으면 된다.

막대 그래프

막대그래프 방식은 파이 차트의 범주의 우위를 따지기 어려운 경우에서 대안이 될 수 있다.

막대의 길이를 활용하여 서로 다른 범주의 우위를 비교한다.
범주 별 비교는 파이 차트보다 막대 그래프가 더 수월하다.

연속형 시각화

히스토그램

가장 대표적인 연속형 시각화 방식이다. 히스토그램은 연속형 데이터를 지정된 범위로 응축하여 분포를 나타내는 그래프이다.

연속형 데이터의 특정 구간별 빈도를 막대로 표현
- 즉, 연속형 데이터의 구간별 빈도 및 분포를 막대로 표현하여, 데이터의 분포를 나타냄.
이를 통해, 데이터의 분포 및 구간 별 빈도 상태를 유용하게 알아볼 수 있음.
관측된 연속형 데이터의 값들의 분포 파악 가능
구간 별 분포 상태를 쉽게 알아볼 수 있는 그래프
구간 내 속하는 자료의 수가 많고, 적음을 쉽게 파악
막대 그래프와 유사한 형태 보유
- 히스토그램의 막대는 연속형 변수의 빈도 분포를 표현
- 막대그래프의 막대는 범주형(이산형) 변수의 빈도표 비교 표현

히스토그램과 막대그래프의 차이점

1. 데이터의 형태 : 히스토그램은 연속형 데이터를 활용하며, 막대그래프는 범주형 데이터를 사용한다.

2. X축 : 히스토그램은 x축이 연속형 데이터로, 연속형 값의 범위의 분포를 나타내어, 순서의 변경이 불가능하고, 막대가 연속적으로 붙어서 나타나지만, 막대그래프는 x축이 범주 특성이므로 순서를 바꿀 수 있으며, 막대 사이에 간격이 존재한다.

커널밀도추정

히스토그램의 한계점을 극복하기 위한 방안으로, 히스토그램은 구간을 어떻게 설정하는가에 따라 분포의 결과물이 달라져 해석에 방향성에 영향을 준다는 한계를 가졌였다. 이를 커널 밀도 추정에서는 해결했다.

커널 밀도 추정은 아래와 같은 특징을 가진다.

관측된 연속형 데이터 값들의 분포를 분석하여 연속성 있는 확률 밀도 함수를 추정
관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)을 추정하는 것 (주어진 데이터의 분포 추정 - 변수의 확률(밀도) 추정)
- 히스토그램이 실 관측된 데이터의 빈도를 바탕으로 실 분포를 표현한 것이라면, 커널밀도추정은 각 데이터를 커널 함수로 대체하여 더하므로서, 히스토그램의 구간 마다의 불연속성을 제거한 형태이다.
- 곡선으로 대체하는 것은 주어진 데이터에서 어디가 밀도가 높은지, 낮은지를 추정하여 그린 것으로 커널밀도추정은 히스토그램을 매끄럽게 그린 것으로 볼 수 있다.
히스토그램의 한계점을 극복하기 위한 방안
- 구간경계가 연속적이지 않음
- 구간 크기 및 시작 위치에 따라 분포가 다르게 나타남
- 고차원 데이터에 대한 메모리 문제 발생 가능성 존재

박스 플롯

연속형 데이터에 대한 명확한 요약을 보기에 매우 효과적인 시각화 방안이다.

박스 플롯의 특징은 아래와 같다.

연속형 데이터의 양상을 직관적으로 파악할 수 있는 방안으로, 5가지의 요약치를 기반으로 생성되며, 다양한 정보를 손쉽게 표현한다. (하나의 그래프로 다양한 정보 제공)
1. 중앙값
2. 1분위수
3. 3분위수
4. 최소값 (IQR value 기반)
5. 최대값 (IQR value 기반)
개별 연속형 변수별 통계지표를 기반으로 시각화를 통해 파악할 수 있도록, 기술 통계량 및 각 지표를 활용한다.
IQR 기반의 최대,최소을 기반으로 플롯하여, 연속형 데이터의 개략적인 흩어짐의 형태 파악(데이터의 개략 분포 및 대칭 정보 파악) 및 IQR 기반의 데이터 이상치 판단에 용이함.