import pandas as pd # 데이터, 전처리
import numpy as np
# 향후 버전에서 제외될 수 있다는 경고 메시지 감추기
import warnings
warnings.filterwarnings("ignore")
df.index # index 정보 확인
df.values # 값 확인. np.array 형태의 2차원 값으로 변환
df.head() # 안에 숫자 넣으면 그 개수만큼 보여줌
df.tail()
df.info() # row(index) 개수, column 개수, column 이름, non-null 개수, 각 column의 타입
df.shape # row와 column의 개수를 튜플로 반환. np.shape과 기능이 같을 뿐, 같은 함수는 아님
df.dtypes # column 정보 확인(column 이름, 각 column의 타입)
df['열이름'].unique() # column의 고유값을 볼 수 있음
df.columns # column 이름 확인
df.columns.values.tolist() # columns을 list로 변환
df.isna().sum() # 결측치 세기
df.isnull().sum()
# df.loc
df.loc[:, ['열1', '열2']]
df.loc[df['열3'].isin(['a', 'b', 'c']), ['열1', '열2']]
# df.iloc: index 기준
df.iloc[9:20] # index 9부터 index 20 까지
## df[10:21] 와 같음
df.iloc[-7:] # index -7부터 끝까지
df.describe() # 기초 통계량 확인
## include='all': 문자인 애들은 nan으로 나옴
df.value_counts() # 범주별 개수를 count해서 반환
## dropna = True: 결측치 제거해서 보여줌
## normalize=True: 값의 분포 비율 확인