프로파일링

강림·2023년 10월 8일

EDA Preprocessing Profiling pandas

Data Pre-processing

목록 보기

5/11

1. 탐색적 데이터 분석 개요

1.1 탐색적 데이터 분석 (EDA)

EDA(Exploratory Data Analysis)라고 함
수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
EDA를 통해서 Data Pre-processing(데이터 전처리), Feature engineering(피쳐 엔지니어링) 방향 확보

1.2 EDA 프로세스

Step 1: 데이터의 속성(변수, feature) 확인
Step 2: 각 피쳐별 단변량 데이터 분석
Step 3: 피쳐간 상관관계 분석
Step 4: 결측치 처리
Step 5: 이상치 처리
Step 6: 피쳐 엔지니어링을 통한 피쳐 선택, 추가, 삭제

1.3 변수 분석

단변량 분석

변수 하나에 대해 기술통계량(descriptive statistics) 을 확인
- 대표값 : 데이터의 평균, 중위수, 최빈수
- 산포 : 표준편차, 분산, 범위, 사분위수
- 분포 : 왜도, 첨도
- 기타 : 신뢰구간, 데이터의 정규성
Histogram이나 Boxplot을 사용해서 평균, 최빈값, 중간값 등과 함께 각 변수들의 분포를 확인
범주형 변수의 경우 Boxplot을 사용해서 빈도 수 분포를 체크

이변량 분석

변수 2개 간의 관계를 분석
- 상관관계 분석(Correlation Analysis): 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석
변수의 유형에 따라 적절한 시각화 및 분석 방법 적용: 산점도 등

다변량 분석

범주형 변수가 하나 이상 포함되어 있는 경우 변수를 범주에 따라 분리한 후 위 분석 방법에 따라 분석
모두 연속형 변수이면 연속형 변수를 Feature engineering을 통해 범주형 변수로 변환한 후 분석, 혹은 3차원 그래프를 그려 시각적으로 확인

그래프 분석

데이터의 종류에 따라 적절한 그래프를 선택해야 함
다양한 그래프를 통하여 피처들의 특성을 파악하하는 것이 중요

2. 데이터 프로파일링

2.1 데이터 프로파일링

프로파일링(profiling)

어떤 개인의 심리적, 행동적 특성을 분석함으로써 특정 상황이나 영역에서의 행동을 예상하는 것
사회인구학적 특성을 포함한 여러 변수에 의해 특정한 하위 그룹으로 분류하는 것

데이터 프로파일링(profiling)

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)를 수행하는 것
데이터 내 값의 분포, 변수 간의 관계, Null 값과 같은 결측값(missing values) 존재 유무 등을 분석

2.2 데이터 프로파일링의 단계

2.2.1 메타데이터 수집 및 분석

실제 운영 중인 데이터베이스의 테이블 명, 컬럼 명, 제약조건 등의 정보 분석
- 테이블 정의서, 컬럼 정의서와 같은 데이터 관리 문서의 정보 분석
- 추출된 테이블 및 컬럼에 대한 메타데이터와 데이터 관리 문서를 매핑하여 불일치 사항을 분석

2.2.2 컬럼 속성 분석

컬럼 속성 분석은 대상 컬럼의 비유효한 값을 확인
컬럼의 총 건수, 유일값 수, NULL값 수, 공백값 수, 최댓값, 최솟값, 최대 빈도, 최소빈도 등 기초 집계값을 산출하여 값이 유효한 범위 내에 있는지 판단

2.2.3 결측치 분석

반드시 입력되어야 하는 데 누락이 발생한 컬럼을 발견하는 절차
결측치에는 NULL값, 공백값 또는 숫자 ‘0’ 등이 해당
NULL 허용 컬럼일지라도 NULL과 공백이 혼재하는 경우와 총건수와 NULL 건수가 같아 미사용으로 추정되는 컬럼을 발견하는 일도 포함

2.2.4 허용범위 분석

허용범위 분석은 값이 가져야 할 범위 내에 그 값이 있는지를 파악하는 절차
허용범위는 해당 속성의 도메인 유형에 따라 정해짐
- 아래 예시에서 MAGAZINE 테이블의 권, 호, 페이지 등의 컬럼은 0 이상의 값을 가져야 하지만 최솟값이 -999 등으로 이루어진 것으로 보아 NULL 대신 무의미한 값을 부여한 데이터일 가능성이 큼
- 해당값이 오류 데이터라면 NULL값을 부여해야 함

2.2.5 허용값 분석

허용값 분석은 해당 컬럼의 허용값 목록이나 집합에 포함되지 않는 값을 발견하는 절차
코드 매핑 정의서에 기술한 코드 성격의 컬럼이 분석 대상에 해당
- 아래 예시에서 등록되지 않은 코드가 포함되어 있거나 의미는 유사하나 다른 값으로 혼재된 경우를 확인가능

2.2.6 패턴 분석

해당 컬럼의 문자열 유형을 따르지 않는 오류 유형을 발견하는 절차
데이터 집계할 때 문자일 경우 C, 숫자일 경우 9, 공백일 경우 S를 반환하는 함수를 만들어 사용
- 해당 컬럼의 데이터를 패턴화하여 SQL로 조회하면 비정상적인 형태를 보인 값을 오류로 추정할 수 있음

2.2.7 날짜 유형 분석

대상 컬럼이 DBMS의 DATE 관련 자료형을 가지면 날짜 패턴 및 유효성 검증은 문제가 없음
- 하지만 문자형 데이터 타입에 날짜 데이터를 입력하면 아래 예시와 같은 사례가 발생할 수 있음
- 이는 패턴 검증을 통하여 쉽게 검증할 수 있음

2.2.8 유일값 분석

유일값 분석은 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생하였는지를 파악하는 절차
DBMS의 제약조건으로 PK(Primary Key)가 설정된 컬럼이나 UNIQUE가 설정된 컬럼은 문제가 없음
아래 예시처럼 CUSTOMER 테이블의 EMAIL 컬럼은 PK 컬럼이 아니지만, 업무적으로 고객의 이메일은 유일해야 하는 경우 최대 빈도를 통하여 중복된 데이터를 확인할 수 있음

2.2.9 구조 분석

데이터 구조 분석은 구조 결함으로 인해 일관되지 못한 데이터를 발견하는 분석 기법
아래 예시에 ORDER 테이블에 CUSTOMER 테이블에는 존재하지 않는 데이터가 존재하여 데이터의 일관성이 없는 오류 데이터가 발생
ERD(Entity-Relationship Diagram) 등 설계 시에는 관계를 설정해두고 실제 데이터베이스에는 제약조건을 적용하지 않고 개발하는 경우 이러한 사례가 빈번하게 발생

3. 데이터 프로파일링을 위한 Python 패키지

3.1 klib

Pandas 데이터프레임을 기반으로 데이터전처리 및 프로파일링을 제공해주는 패키지
데이터 품질평가, 데이터 전처리, 관계시각화를 목적으로 사용
속도가 상당히 빠르며, 유려한 시각화 기능을 제공

제공 API

klib.describe: 시각화 메서드
- klib.cat_plot(df): 범주형 변수 프로파일링
- klib.corr_mat(df): 상관관계 매트릭스
- klib.corr_plot(df): 상관관계
  klib.dist_plot(df): 분포
klib.missingval_plot(df): 결측치
- klib.clean: 데이터 정제 메서드
- klib.data_cleaning(df): 데이터 정제 (데이터 유형변경, 중복/결측치행 삭제,…)
- klib.clean_column_names(df): 컬럼명 변경
- klib.convert_datatypes(df): 데이터 유형 변경
- klib.drop_missing(df): 결측행 삭제
- klib.mv_col_handling(df): 피처 삭제
- klib.pool_duplicate_subsets(df): 중복 데이터 삭제
klib.preprocess: 데이터 전처리(feature selection, scaling, …)
- klib.train_dev_test_split(df): 데이터세트 분리
- klib.feature_selection_pipe(): 피쳐 선택
- klib.num_pipe(): 수치형 데이터 처리
- klib.cat_pipe(): 범주형 데이터 처리
- klib.preprocess.ColumnSelector(): 피쳐 선택
- klib.preprocess.PipeInfo(): 전처리 파이프 라인처리

mamba install klib

"mamba"는 "conda"의 대안으로 사용되는 패키지 관리자이며, "pip"는 Python 패키지를 설치하는 데 사용되는 표준 도구임

따라서

pip install klib

을 하면됨.

import warnings

# hide warnings
warnings.filterwarnings("ignore")

warnings 모듈을 사용하여 모든 경고 메시지를 무시하도록 필터링함
- filterwarnings("ignore")는 모든 경고를 무시하도록 설정하는 메서드

import klib
import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")
df.head()

'sns.load_dataset("titanic")' seaborn에서 제공하는 타이타닉 데이터셋 불러오기

klib.missingval_plot(df)

'missingval_plot' 함수를 사용하여 데이터프레임 df에 대한 결측값(누락된 데이터)의 시각화를 생성하는 코드


klib.corr_plot(df, split='pos') 

klib.corr_plot(df, split='neg')

양의 상관관계 플롯

음의 상관관계만 플롯

데이터셋에서 어떤 변수들이 서로 어떻게 관련되어 있는지 빠르게 파악

klib.corr_plot(df, target='age')

'corr_plot' 함수를 사용하여 데이터프레임 df에서 특정 타겟(목표) 변수, 여기서는 'age' 변수와 다른 변수들 간의 상관관계를 시각화

klib.dist_plot(df)

'dist_plot' 함수는 주어진 데이터프레임의 각 열(특성)에 대한 분포를 히스토그램이나 커널 밀도 플롯 등의 형태로 시각적

df_cleaned = klib.data_cleaning(df)

'data_cleaning' 함수는 자동적으로 다양한 데이터 정리 작업을 수행
'df_cleaned = klib.data_cleaning(df)' 코드는 이러한 작업들을 자동으로 수행하고, 정리된 데이터프레임을 df_cleaned 변수에 저장

누락된 데이터 처리: 결측값이나 누락된 데이터를 적절한 방식으로 처리합니다. 예를 들어, 중간값이나 평균값으로 대체할 수 있습니다.
이상치 처리: 이상치(Outliers)를 감지하고 이를 처리하는 작업을 수행합니다. 예를 들어, 이상치를 제거하거나 대체할 수 있습니다.
중복된 행 처리: 중복된 행이 있는 경우 이를 처리합니다.
데이터 유형 변환: 데이터의 유형을 변환하여 적절한 형태로 만듭니다.
기타 데이터 정리 작업: 필요한 경우 기타 데이터 정리 작업을 수행합니다.

결과 :

데이터 형태 (Shape) 및 남아있는 결측값 (Remaining NAs):
Shape of cleaned data: (784, 15) - Remaining NAs: 692

행 삭제 (Dropped rows):
Dropped rows: 107
of which 107 duplicates. (Rows (first 150 shown): [47, 76, 77, 87, 95, 101, 121, 133, 173, 196, 198, 201, 213, 223, 241, 260, 274, 295, 300, 304, 313, 320, 324, 335, 343, 354, 355, 358, 359, 364, 368, 384, 409, 410, 413, 418, 420, 425, 428, 431, 454, 459, 464, 466, 470, 476, 481, 485, 488, 490, 494, 500, 511, 521, 522, 526, 531, 560, 563, 564, 568, 573, 588, 589, 598, 601, 612, 613, 614, 635, 636, 640, 641, 644, 646, 650, 656, 666, 674, 692, 696, 709, 732, 733, 734, 738, 739, 757, 758, 760, 773, 790, 792, 800, 808, 832, 837, 838, 844, 846, 859, 863, 870, 877, 878, 884, 886])

열 삭제 (Dropped columns):
Dropped columns: 0
of which 0 single valued. Columns: []
결측값 삭제 (Dropped missing values):
Dropped missing values: 177
메모리 감소 (Reduced memory):
Reduced memory by at least: 0.06 MB (-75.0%)

3.2 ydata-profiling

인터렉티브한 프로파일링 기능을 통합해 놓은 패키지
판다스 프로파일링(pandas-profiling)에서 최근 ydata-profiling으로 명칭을 변경
ydata-profiling의 주요 특징
- 타입 추론: 컬럼의 데이터 타입 자동 감지 (Categorical , Numerical , Date 등)
- 경고: 작업해야 할 수 있는 데이터의 문제/도전 사항 요약( 누락된 데이터 , 부정확성 , 왜곡 등)
- 단변량 분석: 기술 통계(평균, 중앙값, 최빈값 등) 및 분포 히스토그램과 같은 정보 시각화 포함
- 다변량 분석: 상관 관계, 누락된 데이터에 대한 자세한 분석, 중복 행, 변수 쌍별 상호 작용에 대한 시각적 지원 포함
- 시계열: ACF 및 PACF 플롯을 따라 자동 상관 및 계절성과 같은 시간 종속 데이터와 관련된 다양한 통계 정보를 포함
- 텍스트 분석: 가장 일반적인 범주(대문자, 소문자, 구분 기호), 스크립트(Latin, Cyrillic) 및 블록(ASCII, Cyrilic)
- 파일 및 이미지 분석: 파일 크기, 생성 날짜, 크기, 잘린 이미지 표시 및 EXIF 메타데이터 존재
- 데이터 세트 비교: 데이터 세트 비교에 대한 빠르고 완전한 보고서를 가능하게 하는 한 줄 솔루션
- 유연한 출력 형식: 모든 분석은 다른 당사자와 쉽게 공유할 수 있는 HTML 보고서로 내보낼 수 있으며, 자동화 시스템에 쉽게 통합하기 위한 JSON 및 Jupyter 노트북의 위젯으로 내보낼 수 있음
실행 속도가 느린 것이 단점

3.2.1 ydata-profiling 활용

ydata-profiling 패키지 및 ipywidgets 설치

pip install ydata-profiling ipywidgets

ydata-profiling 패키지는 데이터프레임에 대한 프로파일링 리포트를 생성하는 도구
- 데이터프레임을 분석하고 통계 정보, 결측값 분석, 중복된 행/열, 변수 간 상관관계 등에 대한 시각적 리포트를 생성하여 데이터를 빠르게 탐색
ipywidgets 패키지는 IPython 환경에서 대화형 위젯을 생성하는 도구
- 버튼 (Button): 클릭할 수 있는 버튼을 생성
- 텍스트 상자 (Text Box): 사용자가 텍스트를 입력할 수 있는 상자를 생성
- 슬라이더 (Slider): 범위 내에서 값을 선택할 수 있는 슬라이더를 생성
- 체크 박스 (Checkbox): 선택 상태를 나타내는 체크 박스를 생성

import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport

테스트 데이터 생성

df = pd.DataFrame(np.random.rand(100, 5), columns=["a", "b", "c", "d", "e"])
print(df.head())

코드는 100x5 크기의 랜덤한 값을 가진 데이터프레임을 생성하고, 처음 5개의 행을 출력하는 것. 결과적으로는 다섯 개의 열("a", "b", "c", "d", "e")과 100개의 행으로 이루어진 데이터프레임이 출력

프로파일링 리포트 생성

profile = ProfileReport(df, title="Ydata Profiling Report")

#profile.to_widgets() # jupyter notebook에서 위젯으로 보기
profile.to_notebook_iframe() # HTML 보고서와 유사한 방식으로 셀에 직접 포함
profile.to_file("my_profiling_report.html") # HTML로 별도 저장

이 코드는 데이터프레임에 대한 프로파일링 리포트를 생성하고, 이를 주피터 노트북 위젯, HTML로 저장, 노트북 셀에 직접 포함하는 세 가지 형태로 출력하고 저장

다음과 같은 형태로 코랩내부에 있는 저장소에 저장됨

3.2.2 결측치가 있는 데이터(titanic)

import seaborn as sns
import pandas as pd

df_titanic = sns.load_dataset('titanic')
df_titanic.head()

# titanic 데이터세트는 시간이 오래 걸려 최소수준의 분석만 실행
profile = ProfileReport(df_titanic, title = "Titanic 데이터에 대한 프로파일링 보고서", minimal=True)

profile.to_notebook_iframe()
profile.to_file("titanic_profiling_report.html") # HTML로 별도 저장

이 코드는 최소한의 분석을 수행하여 'titanic' 데이터셋에 대한 프로파일링 리포트를 생성하고, 이를 주피터 노트북 셀에 출력하고 HTML 파일로 저장하는 것

3.2.3 NLP를 위한 네이버 영화 리뷰 데이터

colab 으로 데이터 불러오기

코랩으로 csv 데이터를 불러오기 위해서는 컴퓨터에서 저장해서 가져오는 것이 아닌 구글 드라이브에 저장해서 가지고 와야함

맨마지막에 있는 저 파일표시를누르고

3번째 버튼을 누르면 코랩이 구글드라이브와 연결됨.

가지고 있는 csv를 그냥 드래그앤 드롭으로 저창에 두면 저장됨

우클릭후 경로 복사를 하고 붙여 넣으면 성공!

import pandas as pd

movie_df = pd.read_csv('/content/ko_test_label.csv', sep = ',')
print(movie_df.info())
print(movie_df.shape)
print(movie_df.head(5))

sep=','는 데이터의 구분자가 쉼표(,)라는 것을 지정
info() 메소드는 데이터프레임에 대한 간단한 정보를 출력.
열의 데이터 타입, 결측값 유무, 메모리 사용량 등을 포함한 기본적인 통계 정보를 확인
shape 속성은 데이터프레임의 행과 열의 수를 나타내는 튜플을 반환
차원을 확인할 수 있음

pf_movie = ProfileReport(movie_df, title="네이버 영화 리뷰 데이터에 대한 프로파일링 보고서")
# pf_movie.to_widgets() # jupyter notebook에서 위젯으로 보기
pf_movie.to_notebook_iframe()
pf_movie.to_file("review_profiling_report.html") # HTML로 별도 저장

위와 같은 방식을 통해 html에 프로파일링 보고서를 저장할 수 있음.

3.3 PyGWalker

PyGWalker(“Pig Walker”로 발음)는 시각화를 통한 탐색적 데이터 분석을 위한 Python 라이브러리
pandas 데이터 프레임(및 polars 데이터 프레임)을 시각적 탐색을 위한 Tableau 스타일 사용자 인터페이스로 제공
간단한 끌어서 놓기 작업으로 데이터를 분석하고 패턴을 시각화 가능

pip install "pygwalker[notebook]" --pre

설치코드

import pandas as pd
import pygwalker as pyg

필요 패키지 import

import seaborn as sns
# Seborn 데이터 세트 로드
df_titanic = sns.load_dataset('titanic')

gwalker = pyg.walk(df_titanic).display_on_jupyter()

다음과 같은 형태로 간단하게 분석가능

import polars as pl

titanic_pl = pl.from_pandas(df_titanic)
gwalker = pyg.walk(titanic_pl).display_on_jupyter()

데이터 프레임을 polar 로 변환해서 사용할 수도있는데,
Polars는 병렬 처리 및 다른 최적화 기술을 활용하여 대용량 데이터를 효율적으로 처리할 수 있도록 설계됨.

강림

DRUDGER

이전 포스트

데이터프레임 다루기(고급)

다음 포스트