mpg 열 : 갤런당 마일
1마일 : 1.690934km
1갤런 : 3.78541L
import pandas as pd
df = pd.read_csv('./auto-mpg.csv', header = None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration','model year', 'origin', 'name']
mpg_to_kpl = 1.60934/3.78541
# mpg를 kpl로 변환하기 위한 과정
# 1마일 / 1km
df['kpl'] = df['mpg'] * mpg_to_kpl
# mpg * (1마일 / 1km)
df['kpl'] = df['kpl'].round(2)
print(df.head(3))
import pandas as pd
df = pd.read_csv('./auto-mpg.csv', header = None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration','model year', 'origin', 'name']
print(df.dtypes)
# 각 열의 자료형 확인
print(df['horsepower'].unique())
# horsepower 열의 고유값 확인
import numpy as np
df['horsepower'].replace('?', np.nan, inplace = True)
# ?을 NaN 값으로 대체
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
# horsepower 내 NaN 값 drop
df['horsepower'] = df['horsepower'].astype('float')
# object 형을 float 형으로 변환
print(df['horsepower'].dtypes)
print(df['origin'].unique())
df['origin'].replace({1: 'USA', 2: 'EU', 3: 'JPN'}, inplace = True)
# 정수형 데이터를 문자형 데이터로 변환
print(df['origin'].unique())
print(df['origin'].dtypes)
df['origin'] = df['origin'].astype('category')
print(df['origin'].dtypes)
df['origin'] = df['origin'].astype('str')
print(df['origin'].dtypes)
print(df['model year'].sample(3))
df['model year'] = df['model year'].astype('category')
print(df['model year'].sample(3))