pandas와 seaborn 등을 활용하여 수치형 변수의 탐색적 데이터 분석을 실습해봅니다.
df.head()
df.tail()
df.info()
df.describe()
pandas와 seaborn 등을 활용하여 수치형 변수의 탐색적 데이터 분석으로 데이터를 로드하고 일부 데이터셋만 가져와서 데이터셋의 일부를 미리보고 어떤 데이터가 있는지 봅니다.
데이터의 일부를 가져올 때는 df.head(), df.tail()을 통해 데이터의 앞부분 혹은 뒷부분만 따로 가져와서 보는 것을 추천드립니다.
데이터를 미리보기 할 때 어떤 컬럼이 있는지 혹은 어떤 값이 들어있는지를 살펴보고 수치데이터가 있는지 범주형 데이터가 있는지를 보아야합니다.
df.info()를 통해 전체적인 데이터의 요약을 해보고 df.describe() 로 기술통계 값을 봅니다.
수치형 데이터의 기술통계 값으로 볼 수 있는 값은 count, mean, std, max, 75%, 50%, 25%, min 입니다.
*라이브러리 불러오기
# 데이터 분석을 위한 pandas 라이브러리를 불러옵니다.
# 수치계산을 위한 numpy를 불러옵니다.
# 데이터 시각화를 위한 matplotlib, seaborn 을 불러옵니다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
*버전 확인
print(pd.__version__) #1.3.5
print(sns.__version__) #0.11.2
*데이터 로드
df = sns.load_dataset("mpg")
df.shape #(398,9)
*상위 5개
df.head()
*하위 5개
df.tail()
*데이터 정보
df.info()
기술통계 보기
df.describe()
df.describe(include = "object")