데이터 살펴보기 1: 그래프 없이

juyeon·2022년 10월 27일
0

데이터 다루기

목록 보기
31/35
post-custom-banner

라이브러리 불러오기

import pandas as pd # 데이터, 전처리
import numpy as np

경고메시지 감추기

# 향후 버전에서 제외될 수 있다는 경고 메시지 감추기
import warnings   
warnings.filterwarnings("ignore")

공통

index, values 확인

df.index # index 정보 확인
df.values # 값 확인. np.array 형태의 2차원 값으로 변환

데이터프레임 살펴보기

df.head() # 안에 숫자 넣으면 그 개수만큼 보여줌
df.tail()

df.info() # row(index) 개수, column 개수, column 이름, non-null 개수, 각 column의 타입
df.shape # row와 column의 개수를 튜플로 반환. np.shape과 기능이 같을 뿐, 같은 함수는 아님
df.dtypes # column 정보 확인(column 이름, 각 column의 타입)
df['열이름'].unique() # column의 고유값을 볼 수 있음

df.columns # column 이름 확인
df.columns.values.tolist() # columns을 list로 변환

df.isna().sum() # 결측치 세기
df.isnull().sum()

데이터 부분 읽어들이기

# df.loc
df.loc[:, ['열1', '열2']]
df.loc[df['열3'].isin(['a', 'b', 'c']), ['열1', '열2']]

# df.iloc: index 기준
df.iloc[9:20] # index 9부터 index 20 까지
## df[10:21] 와 같음
df.iloc[-7:] # index -7부터 끝까지

수치형 데이터

df.describe() # 기초 통계량 확인 
## include='all': 문자인 애들은 nan으로 나옴

범주형 데이터

df.value_counts() # 범주별 개수를 count해서 반환
## dropna = True: 결측치 제거해서 보여줌
## normalize=True: 값의 분포 비율 확인
profile
내 인생의 주연
post-custom-banner

0개의 댓글