목차
탐색적 데이터 분석(EDA) 정의
탐색적 데이터 분석(EDA: Exploratory Data Analysis)은 데이터를 탐색하고 분석하여 데이터의 특징과 숨겨진 패턴을 찾아내는 과정
"탐색적 데이터 분석은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들까지 발견하려는 태도, 유연성, 그리고 자발성이다." - 존 튜키
EDA 필요성
- 데이터의 분포와 값을 검토함으로써, 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견하기 위함이다.
- 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는 등의 결정을 내릴 수 있다.
- 잠재적인 문제를 발견하고, 고치고, 다시 수집하는 등의 작업을 계속 반복해야 데이터의 품질이 향상되고, 좋은 분석 결과와 좋은 데이터 모델이 탄생한다.
- 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
- 데이터에 대한 이런 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용된다.
EDA 단계
- 문제 정의
- 명확한 연구 질문과 가설을 세운다.
- 무엇을 분석할 것인지, 어떤 질문에 답하고 싶은지 정의한다.
- 분석에 필요한 주요 변수들과 그 변수들이 어떤 의미를 가지는지 미리 확인한다.
- 분석 계획
- 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세운다.
- 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법(시각화 도구, 통계적 기법 등)은 무엇인지 고려한다.
- 데이터 관찰
- 데이터를 전체적으로 살펴봐야 하고, 데이터를 다양한 시각으로 봐야 한다.
- 개별 속성 관찰
- 데이터에 문제가 없는지 확인한다.
HEAD나 TAIL 부분도 확인한다.
- 추가적으로 다양한 탐색(이상치, 결측치 등 확인)을 해야 한다.
- 속성 간 관계 관찰
- 개별 속성 관찰에서 발견하지 못했던 패턴을 찾아내기 위해 속성 간의 관계에 초점을 맞춰 탐색한다.
- 상관관계 분석, 다양한 시각화 기법(산점도, 막대그래프 등)을 활용하여 변수 간의 연관성이나 추세를 파악한다.
- 재현
- 수행한 분석 과정을 기록한다.
- 다른 사람이 동일한 결과를 얻을 수 있도록 재현 가능성을 확보한다.
- 요인 추가 / 가설 변경
- 탐색 과정에서 새로운 통찰력을 얻거나 기존 가설의 한계를 발견하면 추가적인 분석 요인을 고려하거나 가설을 수정한다.
- 실험
참고: EDA 후에 부족하다고 판단이 되면 다시 데이터 전처리 단계로 돌아간다.
정리
이렇게 EDA(Exploratory Data Analysis)란 데이터를 탐색하고 분석하여 데이터의 특징과 숨겨진 패턴을 찾아내는 과정임을 알게 되었고, 각 단계와 과정을 알게 되었으니 이를 참고하여 데이터를 분석해볼 예정이다.