
하나의 변수로 구성된 데이터를 전체적인 관점에서 파악할 수 있는 데이터 탐색 유형
단일 변수 데이터를 다양한 그래프로 시각화하여 데이터의 형상을 파악하고, 전체적인 관점에서 데이터를 살펴 분석에 활용하는 것이 목적이다. (단일 변수이므로, 원인과 결과를 다루지는 않음)
시각화와 비시각화는 결국 이미지화 하는지의 여부이다.
시각화와 비시각화는 아래와 같은 특징을 가진다.
시각화
특정 값이나, 빈도 등을 통해 데이터를 파악하는 것이 아니므로, 데이터의 전체적인 형상의 파악을 목적으로 한다
비시각화
특정 값이나 빈도 등을 통해 데이터를 파악하는 방법이므로, 데이터의 형상이나 분포를 파악하기는 어려움
2가지 모두 데이터 탐색을 위해 거쳐야 하는 방안들이며, 각 방안들마다 목적이 다름을 인지하면 된다.
파이 차트는 범주형 데이터의 빈도를 비율로 환산하여, 해당 비율을 부채꼴로 표현한 시각화 차트이다.
범주별 구성의 차이를 개략적으로 볼 수 있는 차트로, 전반적인 비율 파악을 용이하게 할 수 있다.
간단하고, 이해하기 쉬운 그림이므로, 기존에 데이터에 대한 정보가 없는 사람에게 효과적이다.
범주 별 크기가 유사한 경우, 우위를 따지기 어려우며, 범주가 많은 경우에도 시각적 전달 효과가 떨어지는 단점을 가진다.

막대그래프 방식은 파이 차트의 범주의 우위를 따지기 어려운 경우에서 대안이 될 수 있다.

가장 대표적인 연속형 시각화 방식이다. 히스토그램은 연속형 데이터를 지정된 범위로 응축하여 분포를 나타내는 그래프이다.
연속형 데이터의 특정 구간별 빈도를 막대로 표현
이를 통해, 데이터의 분포 및 구간 별 빈도 상태를 유용하게 알아볼 수 있음.
관측된 연속형 데이터의 값들의 분포 파악 가능
구간 별 분포 상태를 쉽게 알아볼 수 있는 그래프
구간 내 속하는 자료의 수가 많고, 적음을 쉽게 파악
막대 그래프와 유사한 형태 보유

히스토그램과 막대그래프의 차이점
1. 데이터의 형태 : 히스토그램은 연속형 데이터를 활용하며, 막대그래프는 범주형 데이터를 사용한다.
2. X축 : 히스토그램은 x축이 연속형 데이터로, 연속형 값의 범위의 분포를 나타내어, 순서의 변경이 불가능하고, 막대가 연속적으로 붙어서 나타나지만, 막대그래프는 x축이 범주 특성이므로 순서를 바꿀 수 있으며, 막대 사이에 간격이 존재한다.
히스토그램의 한계점을 극복하기 위한 방안으로, 히스토그램은 구간을 어떻게 설정하는가에 따라 분포의 결과물이 달라져 해석에 방향성에 영향을 준다는 한계를 가졌였다. 이를 커널 밀도 추정에서는 해결했다.
커널 밀도 추정은 아래와 같은 특징을 가진다.
관측된 연속형 데이터 값들의 분포를 분석하여 연속성 있는 확률 밀도 함수를 추정
관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)을 추정하는 것 (주어진 데이터의 분포 추정 - 변수의 확률(밀도) 추정)
히스토그램의 한계점을 극복하기 위한 방안

연속형 데이터에 대한 명확한 요약을 보기에 매우 효과적인 시각화 방안이다.
박스 플롯의 특징은 아래와 같다.
연속형 데이터의 양상을 직관적으로 파악할 수 있는 방안으로, 5가지의 요약치를 기반으로 생성되며, 다양한 정보를 손쉽게 표현한다. (하나의 그래프로 다양한 정보 제공)
개별 연속형 변수별 통계지표를 기반으로 시각화를 통해 파악할 수 있도록, 기술 통계량 및 각 지표를 활용한다.
IQR 기반의 최대,최소을 기반으로 플롯하여, 연속형 데이터의 개략적인 흩어짐의 형태 파악(데이터의 개략 분포 및 대칭 정보 파악) 및 IQR 기반의 데이터 이상치 판단에 용이함.
