EDA(탐색적 데이터 분석, Exploratory Date Analysis)와 통계 분석(Statistical Analysis)는 데이터 분석 과정에서 중요한 목적과 방법론에서 차이가 있다.
두 개념은 상호 보완적 관계로 데이터를 분석하고 이해하는데 서로 중요한 도구로 사용된다.
- EDA(탐색적 데이터 분석, Exploratory Date Analysis)
1) 정의
: 데이터의 주요 특성을 탐구하고 이해하기 위한 과정 / 데이터 분석 초기 단계에 사용
2) 목적
- 데이터를 탐구하고 시각적으로 분석해 주요 특징과 패턴 발견, 문제 해결을 위한 방향 설정에 도움
- 가설 설정 : EDA는 새로운 가설을 설정하고, 이후의 정량적 분석이나 모델링에 사용할 변수를 식별해줌
3) 주요 기법
- 시각화
- 요약 통계 : 평균, 중앙값, 분산, 표준 편차
- 변수 간 관계 : 상관분석, 시각적 탐색(산점도)
- 이상치 탐지 : 상자 그림, z-점수, 이상치 분석
4) 주요 특징
- 탐색적 성격 : 주어진 데이터에서 어떤 특성이 있는지 자유롭게 탐색
- 시각화가 중점 : 주로 데이터를 그래프나 도표로 시각화하여 패턴 식별
- 모델링 전 단계 : EDA는 데이터 분석 초기 단계에서 모델링을 위한 가설을 세우고 데이터의 문제점을 해결하는데 사용됨
- 통계 분석(Statistical Analysis)
1) 정의
: 통계 분석은 데이터를 수리적, 수학적으로 처리해 데이터를 분석, 해석 / 정량적인 분석 / 가설검증을 위한 수단
2) 목적
- 가설 검정
- 정량적 결론 도출 -> 신뢰성 파악
3) 주요 기법
- 기술 통계 : 평균, 중앙값, 표준편차 등의 요약 통계량
- 추론 통계 : 표본 데이터를 통해 모집단에 대한 결론 도출
- 가설 검정 : T-검정, 카이제곱 검정, 분산분석 등
- 회귀 분석 : 데이터 간 관계를 수리적으로 표현, 선형 회귀, 다항 회귀, 로지스틱 회귀 등
- 상관 분석
- 신뢰 구간 : 데이터 추정 값에 대한 신뢰 구간을 제시해 결과의 불확실성을 평가
- P-값 : 가설 검정에서 관측된 데이터가 귀무가설 하에서 나올 확률 계산하는 값
4) 주요 특징
- 정량적 성격: 명확한 수치적 결과를 제공하며, 데이터를 통해 검증할 수 있는 결론을 도출합니다.
- 가설 검증: 통계적 가설 검정을 통해 데이터의 의미를 확인하고, 신뢰도를 평가합니다.
- 엄격한 방법론: 통계 분석은 수리적인 방법론을 기반으로 하며, 일정한 절차에 따라 데이터를 분석하고 결과를 도출합니다.
-
EDA와 통계 분석의 상호 보완성 : EDA의 결과가 통계 분석에 어떻게 활용되는지
- 가설 설정: EDA를 통해 발견된 패턴이나 관계를 바탕으로, 통계 분석에서 검증할 가설을 설정합니다.
- 이상치 탐지: EDA에서 탐지된 이상치나 결측치를 처리하여, 통계 분석에 신뢰성 있는 데이터를 제공할 수 있습니다.
- 변수 선택: EDA를 통해 중요한 변수를 식별하고, 통계 분석에서 모델에 포함할 변수를 결정할 수 있습니다.