자연어 처리 - 6 (프로파일링)

hoegon kim·2022년 10월 4일
0
post-thumbnail
post-custom-banner

판다스 프로파일링(Pandas-Profiling)

좋은 요리를 위해서는 조리 방법도 중요하지만, 그만큼 중요한 것은 갖고있는 재료의 상태입니다. 재료가 상하거나 문제가 있다면 좋은 요리가 나올 수 없습니다. 마찬가지로 좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 합니다. 이 과정에서 데이터 내 값의 분포, 변수 간의 관계, Null 값과 같은 결측값(missing values) 존재 유무 등을 파악하게 되는데 이와 같이 데이터를 파악하는 과정을 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)이라고 합니다. 이번에는 방대한 양의 데이터를 가진 데이터프레임을 .profile_report()라는 단 한 줄의 명령으로 탐색하는 패키지인 판다스 프로파일링(pandas-profiling)을 소개합니다.

프롬프트에서 아래의 pip 명령을 통해 패키지를 설치합니다.

코랩 환경에서 확인하기

런타임 유형으로 변경후 실행해야한다.

생성

!pip install -U pandas-profiling

삭제

pip uninstall pandas-profiling

코드.1

from google.colab import drive
drive.mount('/gdrive')

보여줄 csv 파일 구글 gdrive에 넣고 구글드라이브 임포트하기

코드.2

import pandas as pd
import pandas_profiling
data = pd.read_csv("/gdrive/MyDrive/딥러닝을 이용한 자연어처리 입문/spam.csv")

해당되는 경로 넣고 불러오기

프로파일링 실행

pr=data.profile_report()

괄호안에는 원하는 데이터 이름 넣기

프로파일링 다운로드 하기

pr.to_file("./pr_report.html")

post-custom-banner

0개의 댓글