[ML] EDA(Exploratory Data Analysis)란?

gyurili·2025년 1월 12일

AI

목록 보기
2/23
post-thumbnail

EDA(Exploratory Data Analysis)란 무엇인가요?


EDA(Exploratory Data Analysis)란?🤔

탐색적 데이터 분석을 의미하며, 데이터 분석의 초기 단계에서 데이터의 특성을 파악하는 작업이다. 데이터를 시각화하고 분석하는 방법으로, 데이터의 분포, 패턴, 이상치, 변수 간의 관계를 이해하는 것을 목적으로 한다.

1. EDA의 주요 목적

  1. 데이터의 기본 특성 이해
    데이터의 크기, 데이터 유형, 결측값(NaN)의 존재 여부 등을 확인한다.

  2. 이상치(Outlier) 탐색
    데이터 내에 이상한 값이 존재하는지 확인하고, 분석에 미치는 영향을 평가한다.

  3. 변수 간 관계 탐색
    상관 관계, 분산, 평균 등을 사용하여 변수 간 관계를 살펴볼 수 있다.

  4. 데이터 분포 확인
    히스토그램, Box Plot, 산점도 등의 사각화 방법을 사용하여 데이터 분포를 파악할 수 있다.

2. EDA의 주요 기법

  1. 기술통계
    평균(Mean), 중앙값(Median), 표준편차(Standard Deviation), 최댓값/최솟값 등을 구하여 데이터를 요약할 수 있다.

  2. 시각화
    히스토그램, Box Plot, 산점도, 막대 그래프, 파이 차트 등을 사용해 데이터의 패턴을 시각적으로 파악할 수 있다.
    Python의 시각화 라이브러리에는 Matplotlib, Seaborn, Plotly, Pandas 등이 있다.

  3. 상관관계 분석
    데이터에서 변수 간의 관계를 파악하기 위해 상관계수(Correlation Coefficient)를 사용한다. 상관 행렬(Correlation Matrix)을 시각화하여 변수 간 연관성을 이해할 수도 있다.

3. EDA를 하는 이유

데이터 분석과 머신러닝 모델링에서 데이터 품질이 성능에 직접적인 영향을 미치기 때문이다. 따라서 EDA를 통해 잘못된 가정을 발견하고, 데이터를 전처리하여 분석 결과의 신뢰도를 높일 수 있다.

profile
개발 공부ᕦ(ò_óˇ)ᕤ

0개의 댓글