
EDA(Exploratory Data Analysis : 탐색적 데이터 분석) 는 데이터의 다양한 측면을 바라보고 데이터가 보여주는 현상을 이해하는 과정이다.
EDA 방법을 통해 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성을 파악할 수 있다.
쉽게 말하면, 수직적으로 나타나 있는 데이터를 통계적 지표를 활용하거나, 그래프 등의 시각적 표현 등을 통해 데이터를 다른 형상으로 바꾸어 데이터의 전반적인 이해를 위한 분석 과정을 의미한다.
데이터 분석 과정에서 원본 데이터의 탐색과 이해관계를 기본적으로 올바르게 이해 하는 것은 모델링 과정 만큼 중요한 과정으로, 탐색적 데이터 분석 과정을 통해 데이터를 다른 형태로 보므로서, 기존에 보지 못했던 데이터의 현상이나 부분들을 보고 새로운 인사이트를 반영할 수 있게 된다.
EDA의 기본 개요는 크게 2가지로 볼 수 있다.
이러한 과정을 통해, 데이터의 수집 및 적재 현황, 데이터의 구성 및 현황을 확인하며, 변수간 관계 파악, 분석의 가정을 검토하는 등의 결과를 도출하고자 분석 과저에서 EDA를 수행한다.
분석 과정 내에 EDA가 이루어지는 방식을 알아본다.
실제 데이터 활용을 기반으로 한 비시각화 혹은 시각화를 통한 데이터 탐색 수행 이전에 데이터의 정보를 사전에 확인해야 한다. 이를 사전 데이터 탐색으로 명명했다.
사전 데이터 탐색 과정에는 다음과 같은 것이 포함된다.
데이터 정의 확인
정의서 기반 데이터 확인
(일반적으로 모든 시스템 내 데이터 테이블 마다 각 데이터의 정의서가 존재)
해당 자료를 통해 분석에 활용할 데이터의 특성을 우선적으로 파악하고, 분석 목적으로 사용할 데이터를 사전 검토
실 데이터 확인
head, tail, info 기반 확인이러한 과정은 데이터의 정합성을 확인하고, 확보하기 위한 과정으로 분석을 위한 데이터가 사전에 정의된대로 구축되어 데이터를 활용할 수 있는지 여부를 사전에 확인하는 것이다.
정의서
테이블의 생성일자, 개략적인 정보, 테이블의 컬럼 명, 속성, 데이터 타입 , 범주별 속성 의미 등 시스템 내 데이터를 관리하기 위한 메타 데이터를 담아놓는 일종의 문서
엑셀, 워드 뿐만 아니라, 메타 관리 시스템을 통해 관리하기도 한다.
데이터 탐색을 구분하기 위한 요인은 크게 아래와 같다.
데이터 변수 개수가 몇 개인가?
결과를 어떻게 파악할 것인가? ()
데이터의 유형은 무엇인가?
| 일변량 (Univariable) | 다변량 (Multivariable) | |
|---|---|---|
| 비시각화 | 빈도표, 기술통계량 | 교차표, 상관계수 |
| 시각화 | 파이차트, 막대그래프, 히스토그램, 박스플롯 | 모자이크 플롯, 박스 플롯, 평행좌표, 산점도 |
이 중 해당 자료는 일변량 비시각화를 다룬다.
일변량 비시각화란 분석할 데이터가 하나의 변수로 구성되고, 해당 데이터를 대상으로 요약 통계량, 빈도 등으로 표현하는 탐색 유형이다.
일변량 비시각화 탐색을 범주형 데이터에 적용하는 방법을 알아본다.
범주형 일변량 비시각화 방법은 아래와 같다.
빈도표 : 범주형 데이터의 범주별 빈도 및 구성, 비율을 파악하기 위한 도구
특정 범주 별 빈도 파악이 목적
범주 별 빈도 수 기반의 구성 파익 및 결측치 빈도 파악
데이터 전체 대비 각 범주 별 분포 파악

이러한 빈도표는 비교적 간단하게 구성할 수 있는 파악 방안이지만, 데이터 탐색 과정에서 매우 중요
분류 및 예측를 위한 데이터 탐색 과정을 진행 시, 타겟 변수의 구성을 파악하는 것은 분류 분석 시 매우 중요하다.
만약, 타겟 범주 Y/N의 비율이 1:99 라면, 심각한 데이터의 불균형을 가지므로, 이를 조정할 필요가 있다. 그런데, 빈도표가 없다면 이런 불균형을 파악하기 어려움.
연속형 데이터의 일변량 비시각화는 주요 통계 지표를 통해 데이터의 구성 및 지표 등을 파악한다.
마찬가지로 빈도표와 간단하게 데이터의 구성을 파악할 수 있는 방안이며, 중요하다.