파이썬 기초_5

jh_k·2023년 2월 5일
0

python기초

목록 보기
6/11
import pandas as pd
import numpy as np

pandas 와 numpy를 이용하여 간단한 전처리를 실시

## 결측치 
s1 = pd.Series([1, np.nan, 3, 4, 5])
s2 = pd.Series([1, 2, np.nan, 4, 5])
s3 = pd.Series([1, 2, 3, np.nan, 5])

series형태의 데이터를 딕셔너리로 합쳐
df으로 만들어줌

## Series를 dataframe 합치는 작업
df = pd.DataFrame({
    'S1' : s1, 
    'S2' : s2, 
    'S3' : s3
})
df
## 결측치를 체크 -> 결측치이면 True, 아니면 False 출력 함수
## isna()
df.isna()
## True -> 1, False -> 0
## sum() 함수 이용해서 결측치의 개수 -> 합계 함수 isna() 같이 사용하면 
df.isna().sum()
## 결측치를 제거
## dropna() -> 결측치가 존재하는 행이나 열을 삭제
## 매개변수 axis에 0 (rows)을 대입하면 행을 기준으로 삭제
## 1 (columns)을 대입하면 열을 기준으로 삭제

df.dropna(axis=1)

외부 csv 파일을 통하여 전처리를 실시

sales_df = pd.read_csv("../csv/Sales Records.csv")
sales_df.head()

Order Date 컬럼의 데이터형태를 시계열 데이터로 변경

copy_data["Order Date"] = pd.to_datetime(copy_data["Order Date"], format='%m/%d/%Y')

# formay = '월/일/년'
profile
Just Enjoy Yourself

0개의 댓글