๐ ์ผ๋ผ์ค ์ฐฝ์์์๊ฒ ๋ฐฐ์ฐ๋ ๋ฅ๋ฌ๋ (ํ๋์์ ์๋ , ๋ฐํด์ , ๊ธธ๋ฒ) ์ฐธ๊ณ
์ ๊ฒฝ๋ง์์ ๋ชจ๋ ์ ๋ ฅ๊ณผ ํ๊น์ ๋ถ๋ ์์ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ง ํ ์์ฌ์ผ ํ๋ค. ์ฒ๋ฆฌํด์ผ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ ์๋ก ๋ณํํ๋ ๋จ๊ณ๋ฅผ ๋ฐ์ดํฐ ๋ฒกํฐํ๋ผ๊ณ ํ๋ค.
๋ฐ์ดํฐ์ ๊ฐ ํน์ฑ๋ค์ด ๋ฒ์๊ฐ ์ ๊ฐ๊ฐ์ด๋ฉด ํ์ต์ ์ํฅ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ๋น์ทํ ๋ฒ์๋ฅผ ๊ฐ์ง๋๋ก ์ฒ๋ฆฌํด์ฃผ์ด์ผ ํ๋ค. ์ ๊ทํ๋ฅผ ํตํด ๊ฐ ํน์ฑ์ ํ๊ท ์ด 0์ด๊ณ ํ์ค ํธ์ฐจ๊ฐ 1์ด ๋๋๋ก ์ฒ๋ฆฌํด์ค๋ค.
from sklearn.preprocessing import MinMaxScaler
scaler1 = MinMaxScaler()
X_normalization = scaler1.fit_transform(X)
from sklearn.preprocessing import StandardScaler
scaler2 = StandardScaler()
X_standardization = scaler2.fit_transform(X)
๋ฐ์ดํฐ์ ์ผ๋ถ ๊ฐ์ด ๋๋ฝ๋ ๊ฒฝ์ฐ๊ฐ ์ข ์ข ์๋ค. ์ด๋ฌํ ๋๋ฝ๋ ๊ฐ์ ์ฒ๋ฆฌํด์ฃผ์ด์ผ ํ๋ค.
DF.isnull() # ๊ฒฐ์ธก์น๋ฅผ True๋ก ์ถ๋ ฅ
DF.isnull().sum(axis=0) # ๊ฐ ์ด ๋ณ ๊ฒฐ์ธก์น ๊ฐ์ ํ์ธ, ํ ๋ฐฉํฅ
DF.isnull().sum(axis=1) # ์ด ๋ฐฉํฅ
DF.dropna(thresh=100, axis=1) # ๊ฒฐ์ธก์น 100๊ฐ ์ด์์ธ ์ด ์ญ์
DF.dropna(subset=['column_name'], how='any', axis=0) # ๊ฒฐ์ธก์น๊ฐ ํ ๊ฐ๋ผ๋ ์๋ ํ ์ญ์
# ๊ฒฐ์ธก์น๋ฅผ ํ๊ท ๊ฐ์ผ๋ก ์นํ
DF['column_name'].fillna(int(DF['column_name'].mean(axis=0)), inplace=True)
# ๊ฒฐ์ธก์น๋ฅผ ์ต๋น๊ฐ์ผ๋ก ์นํ
most_freq = DF['column_name'].value_counts(dropna=True).idxmax()
DF['column_name'].fillna(most_freq, inplace=True)
# ๊ฒฐ์ธก์น๋ฅผ ์ด์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ก ์นํ
DF['column_name'].fillna(method='ffill', inplace=True)
# ๊ฒฐ์ธก์น๋ฅผ ๋ค์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ก ์นํ
DF['column_name'].fillna(method='bfill', inplace=True)