⑦ 🤖 Machine Learning 2일차 - 정규화(Normalization/Scaling)

JItzel·2025년 12월 11일

🐡 Machine_learning

목록 보기

7/14

정규화 (Normalization/Scaling)

1. 정규화(Scaling)가 필요한 이유

문제점: 스케일(단위)의 차이

예를 들어, '키(170cm)'와 '몸무게(65kg)'를 가지고 특성을 분석한다고 하자.

키: 150 ~ 190 (범위가 큼)

몸무게: 40 ~ 100 (상대적으로 범위가 작음)
데이터의 단위(Scale) 차이가 크면, 숫자가 큰 특성(키)이 결과에 과도한 영향을 미치게 된다.

효과

학습 속도 향상: 경사하강법(SGD) 시, 데이터가 타원형이 아닌 '원형'으로 분포하게 되어 최적점(Global Minimum)으로 빠르게 수렴.
과적합(Overfitting) 방지: 특정 특성에 가중치가 쏠리는 것을 막아준다.
필수 알고리즘: SVM, 선형 회귀, 로지스틱 회귀, KNN, Neural Network (경사하강법 기반 모델들)

참고: 트리 기반 모델(Decision Tree, Random Forest)은 스케일링의 영향을 거의 받지 않는다.

2. 대표적인 스케일링 기법 3가지

Scikit-learn의 preprocessing 모듈에서 제공

종류	설명	수식	특징
Min-Max Scaling	값을 0 ~ 1 사이로 변환	`x' = (x - min) / (max - min)`	데이터 분포는 유지되나 이상치에 매우 민감함
Standard Scaling	평균 0, 표준편차 1로 변환	`x' = (x - μ) / σ`	가장 많이 사용되는 표준화, 정규분포 가정 모델에 유리
Robust Scaling	중앙값(Median)과 IQR 사용	`x' = (x - Q2) / (Q3 - Q1)`	이상치 영향 최소화, 분포가 비대칭일 때 유리

3. 실습 1: SGDRegressor와 정규화 (MinMax)

선형 회귀 중 경사하강법을 쓰는 SGDRegressor는 데이터 스케일에 매우 민감하므로 정규화가 필수이다

1) 데이터 준비 (스케일 차이가 큰 데이터)

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.linear_model import SGDRegressor

# 데이터 생성 (3번째 컬럼의 단위가 매우 큼)
data = [[828, 920, 1234567, 1020, 1111],
        [824, 910, 2345612, 1090, 1234],
        [880, 900, 3456123, 1010, 1000],
        [870, 990, 2312123, 1001, 1122],
        [860, 980, 3223123, 1008, 1133],
        [850, 970, 2432123, 1100, 1221]]

# 연산을 위해 float32로 변환
df = pd.DataFrame(np.float32(data))

x_data = df.iloc[:, :-1].values # 특성 (독립변수)
y_data = df.iloc[:, [-1]].values # 라벨 (종속변수)

2) 정규화 적용 (fit_transform)

학습 데이터는 fit(기준 찾기)과 transform(변환하기)을 동시에 수행한다.

# 1. 특성 데이터(X) 정규화
scaleF = MinMaxScaler()
x_dataN = scaleF.fit_transform(x_data)

print(x_dataN[:2]) 
# 0과 1 사이의 값으로 예쁘게 변환됨

# 2. 라벨 데이터(Y) 정규화 (회귀 문제에서 SGD 사용 시 권장)
# 보통 분류문제에서는 Y를 스케일링 하지 않지만, 
# 값의 범위가 큰 회귀 문제에서는 수렴을 돕기 위해 Y도 스케일링 하기도 한다.
scaleL = MinMaxScaler()
y_dataN = scaleL.fit_transform(y_data)

3) 학습 및 예측 (주의: 변환된 값 넣기)

모델을 학습시킬 때 정규화된 데이터를 사용했으므로, 예측 시에도 반드시 정규화된 값을 넣어야한다.

# 학습
model = SGDRegressor(verbose=True, max_iter=200)
model.fit(x_dataN, y_dataN.ravel()) # .ravel()로 1차원 변환 권장

# 예측 시나리오: 
# [828, 920, 1234567, 1020] 데이터를 예측하고 싶다면?

# 1. 입력 데이터 정규화 (transform만 사용!)
# 이미 fit으로 기준(min, max)을 잡았으므로 transform만 합니다.
new_data = [[828.0, 920.0, 1234567.0, 1020.0]]
xN = scaleF.transform(new_data) 

# 2. 모델 예측
pred = model.predict(xN)
print(f"예측된 스케일 값: {pred}") 
# array([0.30035559]) -> 0~1 사이의 값이라 우리가 알아볼 수 없음

4) 역정규화 (Inverse Transform)

모델이 뱉어낸 0.30... 이라는 값은 정규화된 세계의 값이므로 이를 다시 우리가 아는 실제 값으로 되돌려야 한다.

# 3. 역정규화 (원래 단위로 복원)
# 예측값은 1차원이므로 2차원 형태로 넣어줘야 함 [pred]
original_val = scaleL.inverse_transform([pred])

print(f"실제 예측값: {original_val}")
# array([[1070.28315213]]) -> 이제야 실제 가격/수치로 보임!

💡 Pipeline (파이프라인)
위처럼 scale -> fit -> predict -> inverse 과정이 번거롭다면, Scikit-learn의 Pipeline을 사용하여 이 과정을 하나로 묶어 자동화할 수 있다.

4. 실습 2: 분류 모델(Logistic)과 정규화

Pima Indians Diabetes 데이터셋을 활용한 분류 문제 실습
분류 문제에서는 라벨( $y$ )은 0, 1이므로 스케일링하지 않는다.

1) 데이터 준비 및 스케일링

df = pd.read_csv('data/pima-indians-diabetes.data.csv')

x_data = df.iloc[:, :-1].values
y_data = df.iloc[:, -1].values

# 스케일러 생성
scaler = MinMaxScaler()

# 전체 데이터를 스케일링
x_dataN = scaler.fit_transform(x_data)

2) 데이터 분할 및 학습

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 정규화된 데이터(x_dataN)를 나눕니다.
x_train, x_test, y_train, y_test = train_test_split(
    x_dataN, y_data, 
    test_size=0.3, 
    stratify=y_data
)

# 학습
model = LogisticRegression(max_iter=500, verbose=True)
model.fit(x_train, y_train)

3) 새로운 데이터 예측

# 예측할 실제 데이터
new_sample = [[6, 148, 72, 35, 0, 33.6, 0.627, 50]]

# 반드시 학습 때 사용한 스케일러로 변환(transform) 후 입력!
xN = scaler.transform(new_sample)

result = model.predict(xN)
print(f"당뇨 여부 예측: {result}") # array([1]) -> 당뇨(1)로 예측

Data Leakage (정보 누수)
Note: 위 예제에서는 편의상 전체 데이터를 fit_transform 한 후 split 했다. 하지만 실무에서 권장하는 방법 X
1. train_test_split을 먼저 한다.
2. x_train 데이터로만 scaler를 fit 한다. (scaler.fit(x_train))
3. 그 기준으로 x_train과 x_test를 각각 transform 한다.
- 이유: 테스트 데이터(미래 데이터)의 정보(min, max, mean 등)가 학습 과정에 미리 반영되는 것을 막기 위함.

요약

정규화(Scaling)는 특성 간의 단위 차이를 없애 학습 성능을 높인다.
MinMax(0~1), Standard(평균0, 표준편차1), Robust(중앙값)가 있다.
학습 시 정규화를 했다면, 예측할 데이터도 반드시 정규화를 거쳐야 한다. (transform)
타겟( $y$ )값까지 정규화했다면, 결과 확인 시 역정규화(inverse_transform)가 필요

JItzel

소금에 절인 생선, 몸을 뒤척이다 🐟

이전 포스트

⑥ 🤖 Machine Learning 2일차 - 데이터 분할(Train-Test Split)

다음 포스트

⑦ 🤖 Machine Learning 2일차 - 정규화(Normalization/Scaling)

🐡 Machine_learning

정규화 (Normalization/Scaling)

1. 정규화(Scaling)가 필요한 이유

문제점: 스케일(단위)의 차이

효과

2. 대표적인 스케일링 기법 3가지

3. 실습 1: SGDRegressor와 정규화 (MinMax)

1) 데이터 준비 (스케일 차이가 큰 데이터)

2) 정규화 적용 (fit_transform)

3) 학습 및 예측 (주의: 변환된 값 넣기)

4) 역정규화 (Inverse Transform)

4. 실습 2: 분류 모델(Logistic)과 정규화

1) 데이터 준비 및 스케일링

2) 데이터 분할 및 학습

3) 새로운 데이터 예측

요약

⑥ 🤖 Machine Learning 2일차 - 데이터 분할(Train-Test Split)

⑧ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 1

0개의 댓글