EDA(탐색적 데이터 분석)
정의
- 수집한 데이터를 분석하기 전에 데이터의 특성을 관찰하고 이해하는 단계
목적
- 여러가지 시각화 도구 및 통계 기법을 사용하여 데이터를 한눈에 파악하고 이해할 수 있음
- 어떤 변수가 예측력이 높고 낮은지 확인할 수 있음
- 예측 모델을 구축하기 전에 적합한 통계 도구를 선택할 수 있음
- 도출하고자 하는 결과의 기본이 되는 가설의 검증 과정이 될 수 있음.
- 데이터를 다양한 각도에서 살펴보면서 다양한 패턴들을 발견하고 더 좋은 가설을 세울 수 있음
과정
- 해결하고자 하는 문제를 파악하고 분석할 데이터들을 확인
- 독립 변수와 종속변수를 구분
- 독립변수는 연구자가 의도적으로 변화시키는 변수
- 종속변수는 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수
- 일변량인지 다변량인지 파악
- 종속변수의 개수가 1개이면 일변량자료이고 종속변수의 개수가 2개 이상이면 다변량 자료이다
- ID, No와 같이 관련이 없는 변수가 없는지 확인
- 데이터를 전체적으로 살펴보면서 이상치, 결측치가 없는지 확인
- 이상치와 결측치를 발견했다면 원인을 파악하고 이를 어떻게 처리할 것인지 결정
- 데이터의 일부만 보고 파악할 수 없기 때문에 전체적으로 확인
- 평균, 중앙값, 최빈값 등의 통계 지표 확인
- 시각화를 통해 데이터의 대략적인 분포를 파악하고 적절한 통계 지표를 결정
- 데이터의 변수들 간에 어떤 유의미한 상관관계를 가지는지 파악
EDA의 유형
- 일변량 시각화
- 히스토그램(Histogram), 막대그래프(Bar Plot) : 데이터 분포를 확인하거나 이상치를 파악할 때 주로 사용하며 연속적인 데이터에 효과적
- Box Plot : 이상치(Outlier)를 파악하거나 데이터의 치우침 정도를 파악할 때 효과적
- QQ-plot : 왜도와 첨도를 파악할때 주로 사용
- 일변량 비시각화
- 통계요약 : 주로 Numeric 데이터를 분석할 때 사용
- 다변량 시각화
- 산점도(Scatter Plot) : 두 변수가 양적 변수일 때 종속 변수를 y축에 두고 빈도를 확인
- 범주별 시각화 : 범주에 따라 일변량 시각화를 적용
- 다변량 비시각화
- 교차 표 : 범주형 데이터에 주로 사용
- 상관분석
Data preprocessing(데이터 전처리)
정의
전처리 이유
- 데이터가 비어 있는 경우가 있음
- 에러나 잡음 포함 될 수 있음
- 모순된 데이터가 있을 수 있음
전처리가 중요한 이유
전처리 주요 작업
- Data Cleaning : 없는 데이터는 채우고, 잡음은 제거하며, 모순된 데이터를 해결
- Data Integration : 여러개의 데이터베이스를 통합함
- Data Transformation : 정규화(Normalization)
- Data Discretization : 데이터 요약(descriptive data summarization)