[pandas] 기초 EDA 코드

황종수·2020년 12월 23일

Pandas

목록 보기

1/4

import pandas as pd

df = pd.read_csv("/content/sample_data/california_housing_train.csv")
df.head()

df.columns # 열 이름 확인
# df.columns = [,,,] 바꾸고자 하는 열 이름 설정 (단, 컬럼 갯수와 동일해야 함)

df.info()

df.shape

df.dtypes
df.columns_.dtypes # 하나의 컬럼도 가능

df.describe()
df.describe(include='all') # 문자형 변수까지 확인 시

df.count()

df['column_'].value_counts()

# mean(),median(),max(), min(), std() 등이 있음

df.mean()
df['column_'].mean()
df[['column_1','column_2']].mean()

# R과는 다르게 자동적으로 문자열은 제외하고 계산

df.corr() # 전체 컬럼에 해당
df[['column_1','column_2']].corr() # 특정 컬럼 간의 상관계수도 확인 가능

호앙조옹스우