[TIL] EDA와 통계분석

bmn.kim·2024년 10월 10일
0

EDA(탐색적 데이터 분석, Exploratory Date Analysis)와 통계 분석(Statistical Analysis)는 데이터 분석 과정에서 중요한 목적과 방법론에서 차이가 있다.
두 개념은 상호 보완적 관계로 데이터를 분석하고 이해하는데 서로 중요한 도구로 사용된다.

  1. EDA(탐색적 데이터 분석, Exploratory Date Analysis)

1) 정의
: 데이터의 주요 특성을 탐구하고 이해하기 위한 과정 / 데이터 분석 초기 단계에 사용

2) 목적

  • 데이터를 탐구하고 시각적으로 분석해 주요 특징과 패턴 발견, 문제 해결을 위한 방향 설정에 도움
  • 가설 설정 : EDA는 새로운 가설을 설정하고, 이후의 정량적 분석이나 모델링에 사용할 변수를 식별해줌

3) 주요 기법

  • 시각화
  • 요약 통계 : 평균, 중앙값, 분산, 표준 편차
  • 변수 간 관계 : 상관분석, 시각적 탐색(산점도)
  • 이상치 탐지 : 상자 그림, z-점수, 이상치 분석

4) 주요 특징

  • 탐색적 성격 : 주어진 데이터에서 어떤 특성이 있는지 자유롭게 탐색
  • 시각화가 중점 : 주로 데이터를 그래프나 도표로 시각화하여 패턴 식별
  • 모델링 전 단계 : EDA는 데이터 분석 초기 단계에서 모델링을 위한 가설을 세우고 데이터의 문제점을 해결하는데 사용됨
  1. 통계 분석(Statistical Analysis)

1) 정의
: 통계 분석은 데이터를 수리적, 수학적으로 처리해 데이터를 분석, 해석 / 정량적인 분석 / 가설검증을 위한 수단

2) 목적

  • 가설 검정
  • 정량적 결론 도출 -> 신뢰성 파악

3) 주요 기법

  • 기술 통계 : 평균, 중앙값, 표준편차 등의 요약 통계량
  • 추론 통계 : 표본 데이터를 통해 모집단에 대한 결론 도출
  • 가설 검정 : T-검정, 카이제곱 검정, 분산분석 등
  • 회귀 분석 : 데이터 간 관계를 수리적으로 표현, 선형 회귀, 다항 회귀, 로지스틱 회귀 등
  • 상관 분석
  • 신뢰 구간 : 데이터 추정 값에 대한 신뢰 구간을 제시해 결과의 불확실성을 평가
  • P-값 : 가설 검정에서 관측된 데이터가 귀무가설 하에서 나올 확률 계산하는 값

4) 주요 특징

  • 정량적 성격: 명확한 수치적 결과를 제공하며, 데이터를 통해 검증할 수 있는 결론을 도출합니다.
  • 가설 검증: 통계적 가설 검정을 통해 데이터의 의미를 확인하고, 신뢰도를 평가합니다.
  • 엄격한 방법론: 통계 분석은 수리적인 방법론을 기반으로 하며, 일정한 절차에 따라 데이터를 분석하고 결과를 도출합니다.
  1. EDA와 통계 분석의 상호 보완성 : EDA의 결과가 통계 분석에 어떻게 활용되는지

    • 가설 설정: EDA를 통해 발견된 패턴이나 관계를 바탕으로, 통계 분석에서 검증할 가설을 설정합니다.
    • 이상치 탐지: EDA에서 탐지된 이상치나 결측치를 처리하여, 통계 분석에 신뢰성 있는 데이터를 제공할 수 있습니다.
    • 변수 선택: EDA를 통해 중요한 변수를 식별하고, 통계 분석에서 모델에 포함할 변수를 결정할 수 있습니다.
profile
문과생의 sql 배우기 많은 관심 부탁드립니다

0개의 댓글