좋은 요리를 위해서는 조리 방법도 중요하지만, 그만큼 중요한 것은 갖고있는 재료의 상태입니다. 재료가 상하거나 문제가 있다면 좋은 요리가 나올 수 없습니다. 마찬가지로 좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 합니다. 이 과정에서 데이터 내 값의 분포, 변수 간의 관계, Null 값과 같은 결측값(missing values) 존재 유무 등을 파악하게 되는데 이와 같이 데이터를 파악하는 과정을 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)이라고 합니다. 이번에는 방대한 양의 데이터를 가진 데이터프레임을 .profile_report()라는 단 한 줄의 명령으로 탐색하는 패키지인 판다스 프로파일링(pandas-profiling)을 소개합니다.
프롬프트에서 아래의 pip 명령을 통해 패키지를 설치합니다.
런타임 유형으로 변경후 실행해야한다.
생성
!pip install -U pandas-profiling
삭제
pip uninstall pandas-profiling
코드.1
from google.colab import drive
drive.mount('/gdrive')
보여줄 csv 파일 구글 gdrive에 넣고 구글드라이브 임포트하기
코드.2
import pandas as pd
import pandas_profiling
data = pd.read_csv("/gdrive/MyDrive/딥러닝을 이용한 자연어처리 입문/spam.csv")
해당되는 경로 넣고 불러오기
pr=data.profile_report()
괄호안에는 원하는 데이터 이름 넣기
pr.to_file("./pr_report.html")