EDA

xodn234·2021년 12월 18일
1
post-thumbnail

EDA(탐색적 데이터 분석)

정의

  • 수집한 데이터를 분석하기 전에 데이터의 특성을 관찰하고 이해하는 단계

목적

  • 여러가지 시각화 도구 및 통계 기법을 사용하여 데이터를 한눈에 파악하고 이해할 수 있음
  • 어떤 변수가 예측력이 높고 낮은지 확인할 수 있음
  • 예측 모델을 구축하기 전에 적합한 통계 도구를 선택할 수 있음
  • 도출하고자 하는 결과의 기본이 되는 가설의 검증 과정이 될 수 있음.
  • 데이터를 다양한 각도에서 살펴보면서 다양한 패턴들을 발견하고 더 좋은 가설을 세울 수 있음

과정

  • 해결하고자 하는 문제를 파악하고 분석할 데이터들을 확인
    • 독립 변수와 종속변수를 구분
      • 독립변수는 연구자가 의도적으로 변화시키는 변수
      • 종속변수는 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수
    • 일변량인지 다변량인지 파악
      • 종속변수의 개수가 1개이면 일변량자료이고 종속변수의 개수가 2개 이상이면 다변량 자료이다
    • ID, No와 같이 관련이 없는 변수가 없는지 확인
  • 데이터를 전체적으로 살펴보면서 이상치, 결측치가 없는지 확인
    • 이상치와 결측치를 발견했다면 원인을 파악하고 이를 어떻게 처리할 것인지 결정
    • 데이터의 일부만 보고 파악할 수 없기 때문에 전체적으로 확인
    • 평균, 중앙값, 최빈값 등의 통계 지표 확인
      • 이상치에 따라 달라질 수 있음으로 주의
  • 시각화를 통해 데이터의 대략적인 분포를 파악하고 적절한 통계 지표를 결정
  • 데이터의 변수들 간에 어떤 유의미한 상관관계를 가지는지 파악

EDA의 유형

  • 일변량 시각화
    • 히스토그램(Histogram), 막대그래프(Bar Plot) : 데이터 분포를 확인하거나 이상치를 파악할 때 주로 사용하며 연속적인 데이터에 효과적
    • Box Plot : 이상치(Outlier)를 파악하거나 데이터의 치우침 정도를 파악할 때 효과적
    • QQ-plot : 왜도와 첨도를 파악할때 주로 사용
  • 일변량 비시각화
    • 통계요약 : 주로 Numeric 데이터를 분석할 때 사용
  • 다변량 시각화
    • 산점도(Scatter Plot) : 두 변수가 양적 변수일 때 종속 변수를 y축에 두고 빈도를 확인
    • 범주별 시각화 : 범주에 따라 일변량 시각화를 적용
  • 다변량 비시각화
    • 교차 표 : 범주형 데이터에 주로 사용
    • 상관분석

Data preprocessing(데이터 전처리)

정의

  • 분석하기 좋게 데이터를 고치는 모든 작업

전처리 이유

  • 데이터가 비어 있는 경우가 있음
  • 에러나 잡음 포함 될 수 있음
  • 모순된 데이터가 있을 수 있음

전처리가 중요한 이유

  • 결과는 데이터에 의존적이기 때문

전처리 주요 작업

  • Data Cleaning : 없는 데이터는 채우고, 잡음은 제거하며, 모순된 데이터를 해결
  • Data Integration : 여러개의 데이터베이스를 통합함
  • Data Transformation : 정규화(Normalization)
  • Data Discretization : 데이터 요약(descriptive data summarization)
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글