import pandas as pd
import numpy as np
pandas 와 numpy를 이용하여 간단한 전처리를 실시
## 결측치
s1 = pd.Series([1, np.nan, 3, 4, 5])
s2 = pd.Series([1, 2, np.nan, 4, 5])
s3 = pd.Series([1, 2, 3, np.nan, 5])
series형태의 데이터를 딕셔너리로 합쳐
df으로 만들어줌
## Series를 dataframe 합치는 작업
df = pd.DataFrame({
'S1' : s1,
'S2' : s2,
'S3' : s3
})
df
## 결측치를 체크 -> 결측치이면 True, 아니면 False 출력 함수
## isna()
df.isna()
## True -> 1, False -> 0
## sum() 함수 이용해서 결측치의 개수 -> 합계 함수 isna() 같이 사용하면
df.isna().sum()
## 결측치를 제거
## dropna() -> 결측치가 존재하는 행이나 열을 삭제
## 매개변수 axis에 0 (rows)을 대입하면 행을 기준으로 삭제
## 1 (columns)을 대입하면 열을 기준으로 삭제
df.dropna(axis=1)
외부 csv 파일을 통하여 전처리를 실시
sales_df = pd.read_csv("../csv/Sales Records.csv")
sales_df.head()
Order Date 컬럼의 데이터형태를 시계열 데이터로 변경
copy_data["Order Date"] = pd.to_datetime(copy_data["Order Date"], format='%m/%d/%Y')
# formay = '월/일/년'