17. 데이터 표준화

따또·2021년 7월 21일
0

Pandas DA

목록 보기
17/31
post-thumbnail

1) 단위 환산

mpg 열 : 갤런당 마일
1마일 : 1.690934km
1갤런 : 3.78541L

import pandas as pd

df = pd.read_csv('./auto-mpg.csv', header = None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration','model year', 'origin', 'name']

mpg_to_kpl = 1.60934/3.78541
# mpg를 kpl로 변환하기 위한 과정
# 1마일 / 1km

df['kpl'] = df['mpg'] * mpg_to_kpl
# mpg * (1마일 / 1km)

df['kpl'] = df['kpl'].round(2)

print(df.head(3))

2) 자료형 변환 (object -> float)

import pandas as pd

df = pd.read_csv('./auto-mpg.csv', header = None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration','model year', 'origin', 'name']

print(df.dtypes)
# 각 열의 자료형 확인

print(df['horsepower'].unique())
# horsepower 열의 고유값 확인

import numpy as np

df['horsepower'].replace('?', np.nan, inplace = True)
# ?을 NaN 값으로 대체

df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
# horsepower 내 NaN 값 drop

df['horsepower'] = df['horsepower'].astype('float')
# object 형을 float 형으로 변환

print(df['horsepower'].dtypes)

3) 자료형 변환 (int -> object)

print(df['origin'].unique())

df['origin'].replace({1: 'USA', 2: 'EU', 3: 'JPN'}, inplace = True)
# 정수형 데이터를 문자형 데이터로 변환

print(df['origin'].unique())
print(df['origin'].dtypes)

4) 자료형 변환 (object -> category)

df['origin'] = df['origin'].astype('category')
print(df['origin'].dtypes)

5) 자료형 변환 (category -> object)

df['origin'] = df['origin'].astype('str')
print(df['origin'].dtypes)

6) 자료형 변환 (int -> category)

print(df['model year'].sample(3))

df['model year'] = df['model year'].astype('category')
print(df['model year'].sample(3))

profile
따또의 DA 벨로그

0개의 댓글