python EDA자동화 도구

Doya·2025년 3월 20일

ESTSOFT_AI개발7기

목록 보기
25/43

EDA(Exploratory Data Analaysis) 탐색적 데이터 분석

  • 수집한 데이터를 본격적으로 분석하거나 모델을 만들기 전에 데이터를 직관적으로 탐색, 이해하는 과정
  • 이를 통해 데이터의 특성을 파악하고, 이상치나 결측치를 발견, 변수간 관계를 분석 할 수 있음

Sweetviz

  • python에서 EDA를 자동화 해주는 라이브러리
  • Pandas데이터프레임을 기반으로 데이터의 기초 통계, 시각화, 변수 간 관계 등을 분석, 대화형 HTML리포트를 생성 해줌

주요 기능

1. 자동 데이터 분석 & 리포트 생성

데이터셋의 기본적인 통계 요약 제공
데이터 분포 시각화 (히스토그램, 박스플롯 등)
상관관계 분석

2. 데이터 비교 기능

Train vs Test 데이터 비교
두 개의 데이터셋 비교 (e.g., 기존 데이터 vs 새로운 데이터)
컬럼별로 차이점을 시각적으로 분석 가능

3. 컬럼별 상세 분석

각 컬럼의 분포, 평균값, 이상치 탐색
숫자형 & 범주형 변수에 대한 통계 요약
결측치 확인

4. 대화형 HTML 리포트

분석 결과를 HTML 파일로 저장하여 웹 브라우저에서 쉽게 확인 가능
컬럼별 탐색 기능 제공

AutoViz

  • python에서 EDA를 자동화 해주는 라이브러리
  • 데이터의 패턴과 특성을 시각적으로 분석하는 데 사용
  • Sweetviz와 비슷하지만 시각화에 좀더 초첨을 맞춘 라이브러리

주요 기능

1. 자동 데이터 시각화

컬럼별 데이터 분포 (히스토그램, 박스플롯 등)
상관관계(히트맵)
숫자형 & 범주형 데이터 분석

2. 대용량 데이터 처리 가능

파일 크기와 컬럼 개수에 관계없이 탐색 가능

3. 결측치 및 이상치 탐색

결측치 히트맵 제공
이상치 탐지

4. 다양한 파일 형식 지원

CSV, Excel, JSON, SQL 데이터베이스 연결 가능

실습

실습 데이터 및 코드는 이상치 실습 코드 데이터 이용

import sweetviz as sv
from autoviz.AutoViz_Class import AutoViz_Class
import os 
import webbrowser
AutoViz_Class().AutoViz(X_train)
report = sv.analyze(X_train)
report.show_html('./bike/sweetviz_report_df.html')
path = './bike/sweetviz_report_df.html'
webbrowser.open(os.path.realpath(path))
print(path, '파일 오픈 실행까지 확인')

profile
안녕하세요. 도야입니다

0개의 댓글