[pandas] 기초 EDA 코드

황종수·2020년 12월 23일
0

Pandas

목록 보기
1/4

1. 데이터 불러오기

import pandas as pd

df = pd.read_csv("/content/sample_data/california_housing_train.csv")
df.head()

2. 열 이름 확인 & 변경

df.columns # 열 이름 확인
# df.columns = [,,,] 바꾸고자 하는 열 이름 설정 (단, 컬럼 갯수와 동일해야 함)

3. 데이터 프레임의 정보(컬럼명, 길이, 데이터 타입 용량 등) 확인

df.info()

4. 데이터 구조 크기 확인

df.shape

5. 변수들의 타입 확인

df.dtypes
df.columns_.dtypes # 하나의 컬럼도 가능

6. 기초통계량 확인

df.describe()
df.describe(include='all') # 문자형 변수까지 확인 시

7. 데이터 개수 확인

df.count()

8. 컬럼의 각 요소별 빈도 계산

df['column_'].value_counts()

9. 기초 통계 계산 함수

# mean(),median(),max(), min(), std() 등이 있음

df.mean()
df['column_'].mean()
df[['column_1','column_2']].mean()

10. 상관계수 행렬 생성

# R과는 다르게 자동적으로 문자열은 제외하고 계산

df.corr() # 전체 컬럼에 해당
df[['column_1','column_2']].corr() # 특정 컬럼 간의 상관계수도 확인 가능
profile
호앙조옹스우

0개의 댓글