[EDA] 탐색적 데이터 분석

·2023년 4월 9일
0
post-thumbnail

1. EDA(Exploratory Data Analysis)

탐색적 데이터 분석은 존 튜키라는 미국의 저명한 통계학자가 창안한 데이터 분석론
기존의 통계학이 정보의 추출에서 가설 검증 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 이어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발

https://blog.camelot-group.com/2019/03/exploratory-data-analysis-an-important-step-in-data-science/

EDA의 필요성

  • 데이터의 분포 및 값을 검토함으로썬 데이터가 표현하는 현상을 더 잘 이해하고, 데이터의 잠재적인 문제 발견
  • 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 비쳐 발견하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 새울 수 있음
  • 데이터에 대한 이런 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용

2. EDA 파이프라인

1. 데이터 준비 : 데이터 소스 백업

2. 데이터 보기

  • 데이터프레임의 기본 정보 출력
    • 데이터프레임명.info()
  • 데이터프레임의 통계 요약정보 출력
    • 데이터프레임명.descrive()
  • 데이터 유형 확인
    • 데이터프레임명.dtypes

3. 데이터 클렌징

  • 결측값, 이상값, 중복값

4. 데이터 탐색

  • 단일변수 데이터 분석
  • 데이터 재구조화
  • 데이터 그룹 분석

5. 데이터 시각화


  • 문제 정의 단계에서 세웠던 연구 질문가 가설을 바탕으로 분석 계획을 세우는 것
  • 분석 계획에는 각 속성을 파악하고 속성간의 관계에 집중하면서 가설을 검증할 최적의 방법을 파악
  • 분석의 목적과 변수가 무엇이 있는지 확인하고, 개별 변수의 이름이나 설명을 가지는지 확인
  • 데이터를 전체적으로 살펴보기
    • 데이터에 문제가 없는지
    • head(), tail() 확인
    • 이상치, 결측치 확인
  • 데이터의 개별 속성값 관찰
    • 각 속성 값이 예측한 범위와 분포를 갖는지 확인
    • 만약 그렇지 않다면, 이유가 무엇인지 확인
  • 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견
profile
개발하고싶은사람

0개의 댓글