[ML] feature scaling

Woong·2023년 8월 23일

feature scaling

Python / Machine Learning

목록 보기

10/27

normalization (정규화)

대부분 [0,1] 범위에 맞추는 방식

MinMaxScaler

min-max scaling (최소-최대 스케일 변환)
샘플 $x^i$ 에 대해 아래와 같이 scaling 하여 계산
- $x^{(i)}_{norm}=\frac { x^{i} - x_{min} } {x_{max} - x_{min}}$

dataset 준비

# 의존성
 pipenv install scikit-learn pandas

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, MaxAbsScaler
import pandas as pd


def get_dataset():
    ## wine dataset
    df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
    df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                       'Alkalinity of ash', 'Magnesium', 'Total phenols', 'Flavanoids',
                       'Nonflavanoid phenols', 'Proanthocyanidins', 'Color intensity', 'Hue',
                       'OD280/OD315 of diluted wines', 'Proline']

    ## split dataset
    x, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0, stratify=y)
    return x_train, x_test, y_train, y_test

scikit-learn MinMaxScaler 를 이용한 구현

def min_max_scaling():
    x_train, x_test, y_train, y_test =get_dataset()

    ## feature scaling
    # min-max scaling (normalization)
    mms = MinMaxScaler()
    x_train_norm = mms.fit_transform(x_train) # train set 으로 파라미터 학습
    x_test_norm = mms.transform(x_test) # 학습한 파라미터로 transform

standardization (표준화)

각 feature 의 평균을 0, 표준편차(standard deviation) 를 1로
- -> 정규 분포의 특성
이상치 (outlier) 에 덜 민감한 편
- 위 정규화의 min-max scaling 은 최소, 최대치를 기준으로 scaling 하므로, outlier 로 인해 샘플 구간이 좁아지는 문제가 발생
수식으로는 아래와 같다
- $μ_x$ : feature 샘플 평균
- $σ_x$ : feature 샘플의 표준편차

$x^{(i)}_{std} = \frac {x^{i} - μ_x} {σ_x}$

scikit-learn StandardScaler 를 이용한 구현
- fit_transform 으로 train dataset 에만 적용
  - 학습한 파라미터로 테스트 데이터셋, 신규 데이터에 모두 변환 적용 (테스트 데이터셋 재학습 X)
- tranform 메소드로 변환
희소 행렬(sparse matrix) 은 with_mean=False 지정하면 사용 가능
- 희소 행렬 : 행렬의 값이 대부분 0인 행렬

def standard_scaling():
    x_train, x_test, y_train, y_test = get_dataset()

    # standardization
    std_scaler = StandardScaler()
    x_train_std = std_scaler.fit_transform(x_train) # train set 으로 파라미터 학습
    x_test_std = std_scaler.transform(x_test) # 학습한 파라미터로 transform

RobustScaler

schikit-learn RobustScaler
- outlier 가 많은 작은 dataset 에 유리
각 feature 별로 중간 값 $q_2$ 을 빼고, 1사분위수(25백분위수) $q_1$ 와 3사분위수(75백분위수) $q_3$ 로 스케일 조정
- 사분위수(quartile) : 값을 정렬하여 4등분, $1\over4$ , $1\over2$ , $3\over4$ 변량값
희소 행렬 (sparse matrix) fit 메소드에 사용 불가. 변환은 가능

$x^{(i)}_{robust} = \frac {x^{(i)}-q_2} {q_3-q_1}$

def robust_scaling():
    x_train, x_test, y_train, y_test = get_dataset()

    # scaling
    robust_scaler = RobustScaler()
    x_train_robust = robust_scaler.fit_transform(x_train) # train set 으로 파라미터 학습
    x_test_robust = robust_scaler.transform(x_test) # 학습한 파라미터로 transform

MaxAbsScaler

각 feature 별로 데이터를 절대값의 최대값으로 나누는 방식
- -> [-1,1] 범위. 최대값 1
- 데이터를 중앙에 맞추지 않기 때문에 희소 행렬 (sparse matrix) 사용 가능

def max_abs_scaling():
    x_train, x_test, y_train, y_test = get_dataset()

    # scaling
    max_abs_scaler = MaxAbsScaler()
    x_train_robust = max_abs_scaler.fit_transform(x_train) # train set 으로 파라미터 학습
    x_test_robust = max_abs_scaler.transform(x_test) # 학습한 파라미터로 transform

reference

서적 '머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로 개정 3판'
Scikit-learn MinMaxScaler, StandardScaler, RobustScaler
Wikipedia 사분위수(quartile)

Woong

이전 포스트

[ML] Support Vector Machine (SVM)

다음 포스트

[ML] feature scaling

Python / Machine Learning

normalization (정규화)

MinMaxScaler

standardization (표준화)

RobustScaler

MaxAbsScaler

reference

[ML] Support Vector Machine (SVM)

[ML] regularization 를 통한 모델 복잡도 제한

0개의 댓글

관련 채용 정보