EDA(Exploratory Data Analysis)란 무엇인가?

Aurora·2025년 11월 30일

AI

목록 보기
2/25

목차


탐색적 데이터 분석(EDA) 정의

탐색적 데이터 분석(EDA: Exploratory Data Analysis)은 데이터를 탐색하고 분석하여 데이터의 특징과 숨겨진 패턴을 찾아내는 과정

탐색적 데이터 분석 정의

"탐색적 데이터 분석은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들까지 발견하려는 태도, 유연성, 그리고 자발성이다." - 존 튜키

EDA 필요성

  1. 데이터의 분포와 값을 검토함으로써, 데이터가 표현하는 현상을 더 잘 이해하고 데이터에 대한 잠재적인 문제를 발견하기 위함이다.
  2. 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는 등의 결정을 내릴 수 있다.
    • 잠재적인 문제를 발견하고, 고치고, 다시 수집하는 등의 작업을 계속 반복해야 데이터의 품질이 향상되고, 좋은 분석 결과와 좋은 데이터 모델이 탄생한다.
  3. 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
  4. 데이터에 대한 이런 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용된다.

EDA 단계

  1. 문제 정의
    • 명확한 연구 질문과 가설을 세운다.
    • 무엇을 분석할 것인지, 어떤 질문에 답하고 싶은지 정의한다.
    • 분석에 필요한 주요 변수들과 그 변수들이 어떤 의미를 가지는지 미리 확인한다.
  2. 분석 계획
    • 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세운다.
    • 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법(시각화 도구, 통계적 기법 등)은 무엇인지 고려한다.
  3. 데이터 관찰
    • 데이터를 전체적으로 살펴봐야 하고, 데이터를 다양한 시각으로 봐야 한다.
    • 개별 속성 관찰
      • 데이터에 문제가 없는지 확인한다.
      • HEADTAIL 부분도 확인한다.
      • 추가적으로 다양한 탐색(이상치, 결측치 등 확인)을 해야 한다.
    • 속성 간 관계 관찰
      • 개별 속성 관찰에서 발견하지 못했던 패턴을 찾아내기 위해 속성 간의 관계에 초점을 맞춰 탐색한다.
      • 상관관계 분석, 다양한 시각화 기법(산점도, 막대그래프 등)을 활용하여 변수 간의 연관성이나 추세를 파악한다.
  4. 재현
    • 수행한 분석 과정을 기록한다.
    • 다른 사람이 동일한 결과를 얻을 수 있도록 재현 가능성을 확보한다.
  5. 요인 추가 / 가설 변경
    • 탐색 과정에서 새로운 통찰력을 얻거나 기존 가설의 한계를 발견하면 추가적인 분석 요인을 고려하거나 가설을 수정한다.
  6. 실험

참고: EDA 후에 부족하다고 판단이 되면 다시 데이터 전처리 단계로 돌아간다.


정리

이렇게 EDA(Exploratory Data Analysis)란 데이터를 탐색하고 분석하여 데이터의 특징과 숨겨진 패턴을 찾아내는 과정임을 알게 되었고, 각 단계와 과정을 알게 되었으니 이를 참고하여 데이터를 분석해볼 예정이다.

profile
개발에 애정을 쏟는 연구자입니다

0개의 댓글