Data Science - 일변량 비시각화 탐색

cosmosJ·2024년 2월 12일

Data Science 데이터 사이언스

데이터 분석

목록 보기

13/26

탐색적 데이터 분석 (EDA)

EDA(Exploratory Data Analysis : 탐색적 데이터 분석) 는 데이터의 다양한 측면을 바라보고 데이터가 보여주는 현상을 이해하는 과정이다.

EDA 방법을 통해 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성을 파악할 수 있다.

쉽게 말하면, 수직적으로 나타나 있는 데이터를 통계적 지표를 활용하거나, 그래프 등의 시각적 표현 등을 통해 데이터를 다른 형상으로 바꾸어 데이터의 전반적인 이해를 위한 분석 과정을 의미한다.

데이터 분석 과정에서 원본 데이터의 탐색과 이해관계를 기본적으로 올바르게 이해 하는 것은 모델링 과정 만큼 중요한 과정으로, 탐색적 데이터 분석 과정을 통해 데이터를 다른 형태로 보므로서, 기존에 보지 못했던 데이터의 현상이나 부분들을 보고 새로운 인사이트를 반영할 수 있게 된다.

탐색적 데이터 분석 개요

EDA의 기본 개요는 크게 2가지로 볼 수 있다.

속성 파악
- 분석 목적 및 개별 변수 속성 파악
- 분석 목적에 맞는 데이터가 준비되어 있는지, 데이터가 올바르게 배열되어 있는지 확인
- ex. 가격 예측 분석 과제에서 가격 컬럼 유형 및 관측치 범위 확인
관계 파악
- 변수간의 관계 파악 및 가설 검증
- 변수 간의 관계를 파악하고, 변수 간의 관계에 어떠한 인사이트를 주는지 파악 (변수 간의 상관관계)
- ex. 건물의 건축연도와 가격 사이의 유의미한 영향 관계 유무 확인

이러한 과정을 통해, 데이터의 수집 및 적재 현황, 데이터의 구성 및 현황을 확인하며, 변수간 관계 파악, 분석의 가정을 검토하는 등의 결과를 도출하고자 분석 과저에서 EDA를 수행한다.

탐색적 데이터 탐색 프로세스

분석 과정 내에 EDA가 이루어지는 방식을 알아본다.

사전 데이터 탐색

실제 데이터 활용을 기반으로 한 비시각화 혹은 시각화를 통한 데이터 탐색 수행 이전에 데이터의 정보를 사전에 확인해야 한다. 이를 사전 데이터 탐색으로 명명했다.

사전 데이터 탐색 과정에는 다음과 같은 것이 포함된다.

데이터 정의 확인
- 정의서 기반 데이터 확인
  (일반적으로 모든 시스템 내 데이터 테이블 마다 각 데이터의 정의서가 존재)
  - 테이블 별 변수 목록, 개수, 설명, 타입 등
- 해당 자료를 통해 분석에 활용할 데이터의 특성을 우선적으로 파악하고, 분석 목적으로 사용할 데이터를 사전 검토
실 데이터 확인
- 실제 데이터 기반 데이터 확인
- 실제 데이터 개요, 결측치, 형상 등 확인
  - head, tail, info 기반 확인
  - 특정 컬럼의 데이터가 이상치가 수집되거나, Null 허용 X 컬럼에 Null 값이 존재하는지 등을 확인
- 변수별 정의된 범위 및 분포 등 확인
  - 관측치 범위/분포 등
  - 정의된 대로 변수에 데이터가 수집되었는지 확인

이러한 과정은 데이터의 정합성을 확인하고, 확보하기 위한 과정으로 분석을 위한 데이터가 사전에 정의된대로 구축되어 데이터를 활용할 수 있는지 여부를 사전에 확인하는 것이다.

정의서
테이블의 생성일자, 개략적인 정보, 테이블의 컬럼 명, 속성, 데이터 타입 , 범주별 속성 의미 등 시스템 내 데이터를 관리하기 위한 메타 데이터를 담아놓는 일종의 문서

엑셀, 워드 뿐만 아니라, 메타 관리 시스템을 통해 관리하기도 한다.

요인별 EDA 유형 구분

데이터 탐색을 구분하기 위한 요인은 크게 아래와 같다.

데이터 변수 개수가 몇 개인가?
- 탐색할 데이터의 개수가 몇 개인가 ➡️ 일변량(1개) vs. 다변량(2개 이상)
결과를 어떻게 파악할 것인가? ()
- 데이터 탐색을 통해 데이터의 구성 및 성격을 파악할 것이라면, 대표적 기술 통계량 및 범주 별 구성을 확인하는 비시각화
- 데이터의 분포 및 모양 등 전체적인 파악이 목적이라면 시각화
데이터의 유형은 무엇인가?
- 연속형 vs. 범주형에 따라 세부 데이터 탐색 방향이 달라짐
- ex. 일변량, 비시각화 범주형 데이터의 경우, 빈도표를 통해 범주 데이터의 구성을 파악
- ex. 일변량, 연속형 데이터의 경우, 기술 통계량을 통해 데이터의 구성을 파악

	일변량 (Univariable)	다변량 (Multivariable)
비시각화	빈도표, 기술통계량	교차표, 상관계수
시각화	파이차트, 막대그래프, 히스토그램, 박스플롯	모자이크 플롯, 박스 플롯, 평행좌표, 산점도

이 중 해당 자료는 일변량 비시각화를 다룬다.

일변량 비시각화

일변량 비시각화란 분석할 데이터가 하나의 변수로 구성되고, 해당 데이터를 대상으로 요약 통계량, 빈도 등으로 표현하는 탐색 유형이다.

가장 기초적이고 간단한 접근이 가장 쉬운 탐색 유형
단일 변수이므로, 원인과 결과를 다루지는 못하나, 데이터의 설명과 구성을 파악하는 중요한 방안이다.

범주형 일변량 비시각화

일변량 비시각화 탐색을 범주형 데이터에 적용하는 방법을 알아본다.

범주형 일변량 비시각화 방법은 아래와 같다.

빈도표 : 범주형 데이터의 범주별 빈도 및 구성, 비율을 파악하기 위한 도구
- 특정 범주 별 빈도 파악이 목적
- 범주 별 빈도 수 기반의 구성 파익 및 결측치 빈도 파악
  - 결측치 빈도와 비율 파악을 통해 데이터의 결측치를 처리 여부 등을 고려할 수 있는 근거 마련
- 데이터 전체 대비 각 범주 별 분포 파악

이러한 빈도표는 비교적 간단하게 구성할 수 있는 파악 방안이지만, 데이터 탐색 과정에서 매우 중요

분류 및 예측를 위한 데이터 탐색 과정을 진행 시, 타겟 변수의 구성을 파악하는 것은 분류 분석 시 매우 중요하다.
만약, 타겟 범주 Y/N의 비율이 1:99 라면, 심각한 데이터의 불균형을 가지므로, 이를 조정할 필요가 있다. 그런데, 빈도표가 없다면 이런 불균형을 파악하기 어려움.

연속형 일변량 비시각화

연속형 데이터의 일변량 비시각화는 주요 통계 지표를 통해 데이터의 구성 및 지표 등을 파악한다.

주요 통계 지표
- 연속형 데이터의 대표 특징 확인
  1. 평균 분산 등의 기술 통계량 (Descriptive Statics)
  2. 중앙값 등 사분위수 (Quantie Statics)
  3. 왜도, 첨도 등의 분포 관련 지표 (Distribution)

마찬가지로 빈도표와 간단하게 데이터의 구성을 파악할 수 있는 방안이며, 중요하다.

예를 들어, 변수 간 관측치 범위가 다를 경우를 파악하고, 이를 통해 정규화, 표준화를 고려할 수 있도록 한다.
또한 평균, 사분위수 등을 통해 데이터의 분포에 따른 이상치 등을 확인하고, 처리할 수 있는 방안의 근거를 제공한다.

실습 코드

github - 실습코드

cosmosJ

백엔드, Data Science, AI 분야 학습 내용을 정리하는 블로그입니다.