
KT에서 준비해주신 AICE ASSO 대비 특강을 듣고 필요한 코드를 정리해보았다. 💻
- 라이브러리 설치
# numpy, pandas 별칭 임포트
import numpy as np
import pandas as pd
# matplotlib 라이브러리 임포트
import matplotlib.pyplot as plt
# seaborn 임포트
!pip install seaborn
import seaborn as sns
- Tabular 데이터 로딩
# pandas read_csv 함수 사용하여 파일 읽은 후 df에 저장
df = pd.read_csv('데이터 파일')
- 데이터 구성 확인
# 상위 5개 데이터 확인
df.head()
# 하위 5개 데이터 확인
df.tail()
# 데이터프레임 정보 확인
df.info()
# 데이터프레임 통계치 확인
df.describe()
# 데이터프레임 열 데이터타입 확인
df.dtypes
# 데이터프레임 인덱스 확인
df.index
# 데이터프레임 열 확인
df.columns
# 데이터프레임 값 확인
df.values
# 특정 열의 데이터 확인
df['A'].values
# 특정 열의 데이터별 개수 확인
df['A'].value_counts()
- 결측치 처리
# 결측치 확인 (null값의 합계)
df.isnull().sum()
# 열 별 Null 개수 확인
df.isnull().sum()
# 열 삭제
df = df.drop('A', axis=1)
df = df.drop(['A', 'B'], axis=1)
# 특정 열, 특정 데이터 개수 확인 (없을 경우 0 반환)
df['A'].value_counts().get('특정 데이터', 0)
# 특정값을 null로 변경
df = df.replace('특정값', np.nan)
# null을 최빈값으로 변경
mode_value = df['A'].mode()[0] # 하나의 최빈값만 반환(인덱스 0번째)
df['A'] = df['A'].fillna(mode_value)
# null을 중앙값으로 변경
median_value = df['A'].median()
df['A'] = df['A'].fillna(mode_value)