지도학습 - 규제 선형모델 배경
편향 오차와 분산 오차
특성이 증가하면 복잡성이 증가 -> 분산은 증가, 편향은 감소 -> overfitting 발생
Bias(편향) 오차와 Variance(분산) 오차를 표현
편향 감소가 분산의 증가와 같아지는 최적의 point를 찾아야 함
정규화 (Regularization/규제)
과대적합이 되지 않도록 모델을 강제로 제한하는 것을 의미
가중치 값을 조정하여 제약을 주는 것
Ridge Regression
Ridge(alpha, fit_intercept, normalize, copy_X, max_iter, tol, solver, random_state)
- alpha : 값이 클수록 강력한 정규화(규제) 설정하여 분산을 줄임, 양수로 설정
- fit_intercept : 모형에 상수항 (절편)이 있는가 없는가를 결정하는 인수 (default : True)
- normalize : 매개변수 무시 여부
- copy_X : X의 복사 여부
- max_iter : 계산에 사용할 작업 수
- tol : 정밀도
- solver : 계산에 사용할 알고리즘 (auto, svd, cholesky, lsqr, sparse_cg, sag, saga)
- random_state : 난수 seed 설정
Ridge_Regression 실습
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
%matplotlib inline
# 확장 보스턴 집값
import mglearn
from sklearn.model_selection import train_test_split
X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
X_train.shape
=> (379, 104)
model = LinearRegression().fit(X_train, y_train)
print('훈련 점수:', model.score(X_train, y_train) )
print('테스트점수:', model.score(X_test, y_test) )
# model_ridge
model_ridge = Ridge().fit(X_train, y_train)
print('훈련 점수:', model_ridge.score(X_train, y_train) )
print('테스트점수:', model_ridge.score(X_test, y_test) )
model_ridge_10 = Ridge(alpha=10).fit(X_train, y_train)
print('훈련 점수:', model_ridge_10.score(X_train, y_train) )
print('테스트점수:', model_ridge_10.score(X_test, y_test) )
model_ridge_01 = Ridge(alpha=0.1).fit(X_train, y_train)
print('훈련 점수:', model_ridge_01.score(X_train, y_train) )
print('테스트점수:', model_ridge_01.score(X_test, y_test) )
# α 값의 변화에 따른 가중치 (coef_)의 변화를 시각화
plt.plot(model_ridge_10.coef_, '^', label='Ridge alpha=10')
plt.plot(model_ridge.coef_, 's', label='Ridge alpha=1')
plt.plot(model_ridge_01.coef_, 'v', label='Ridge alpha=0.1')
plt.plot(model.coef_, 'o', label='LinearRegression')
plt.hlines(0, 0, len(model.coef_))
plt.ylim(-25, 25)
Lasso Regression
Lasso(alpha, fit_intercept, normalize, precompute, copy_X, max_iter, tol, warm_start, positive, solver, random_state, selection)
- alpha : 값이 클수록 강력한 정규화(규제) 설정하여 분산을 줄임, 양수로 설정
- fit_intercept : 모형에 상수항 (절편)이 있는가 없는가를 결정하는 인수 (default : True)
- normalize : 매개변수 무시 여부
- precompute : 계산속도를 높이기 위해 미리 계산된 그램 매트릭스를 사용할 것인지 여부
- copy_X : X의 복사 여부
- max_iter : 계산에 사용할 작업 수
- tol : 정밀도
- warm_start : 이전 모델을 초기화로 적합하게 사용할 것인지 여부
- positive : 계수가 양수로 사용할 것인지 여부
- solver : 계산에 사용할 알고리즘 (auto, svd, cholesky, lsqr, sparse_cg, sag, saga)
- random_state : 난수 seed 설정
- selection : 계수의 업데이트 방법 설정 (random으로 설정하면 tol이 1e-4보다 높을 때 빠른 수렴)
Lasso Regression 실습
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
%matplotlib inline
# 확장 보스턴 집값
import mglearn
from sklearn.model_selection import train_test_split
X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
from sklearn.linear_model import Lasso
# lasso
model_lasso = Lasso().fit(X_train, y_train)
print('훈련 점수:', model_lasso.score(X_train, y_train) )
print('테스트점수:', model_lasso.score(X_test, y_test) )
print('사용한 특성 수:', np.sum( model_lasso.coef_ != 0 ) )
model_lasso_001 = Lasso(alpha=0.01, max_iter=10000).fit(X_train, y_train)
print('훈련 점수:', model_lasso_001.score(X_train, y_train) )
print('테스트점수:', model_lasso_001.score(X_test, y_test) )
print('사용한 특성 수:', np.sum( model_lasso_001.coef_ != 0 ) )
model_lasso_00001 = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train)
print('훈련 점수:', model_lasso_00001.score(X_train, y_train) )
print('테스트점수:', model_lasso_00001.score(X_test, y_test) )
print('사용한 특성 수:', np.sum( model_lasso_00001.coef_ != 0 ) )
plt.plot(model_lasso.coef_, 's', label='Lasso alpha=1')
plt.plot(model_lasso_001.coef_, '^', label='Lasso alpha=0.01')
plt.plot(model_lasso_00001.coef_, 'v', label='Lasso alpha=0.0001')
plt.plot(model.coef_, 'o', label='LinearRegression')
plt.hlines(0, 0, len(model.coef_))
plt.ylim(-25, 25)
plt.legend(ncol=2, loc=(0, 1.05))
ElasticNet Regression
ElasticNet(alpha, l1_ratio, fit_intercept, normalize, precompute, max_iter, copy_X,
tol, warm_start, positive, random_state, selection)
- alpha : 값이 클수록 강력한 정규화(규제) 설정하여 분산을 줄임, 양수로 설정
- l1_ratio : L1 규제의 비율 (혼합비율?)
- fit_intercept : 모형에 상수항 (절편)이 있는가 없는가를 결정하는 인수 (default : True)
- normalize : 매개변수 무시 여부
- precompute : 계산속도를 높이기 위해 미리 계산된 그램 매트릭스를 사용할 것인지 여부
- copy_X : X의 복사 여부
- max_iter : 계산에 사용할 작업 수
- tol : 정밀도
- warm_start : 이전 모델을 초기화로 적합하게 사용할 것인지 여부
- positive : 계수가 양수로 사용할 것인지 여부
- random_state : 난수 seed 설정
- selection : 계수의 업데이트 방법 설정 (random으로 설정하면 tol이 1e-4보다 높을 때 빠른 수렴)
다항 회귀
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
n = 100
x = 6 * np.random.rand(n, 1) - 3
y = 0.5 * x**2 + 1 * x + 2 + np.random.rand(n, 1)
plt.scatter(x, y, s=5)
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
# 데이터 변환 과정과 머신러닝을 연결해주는 파이프라인
from sklearn.pipeline import make_pipeline
ploy_features = PolynomialFeatures(degree=2, include_bias=False)
x_poly = ploy_features.fit_transform(x)
model = LinearRegression().fit(x_poly, y)
model_lr = make_pipeline(PolynomialFeatures(degree=2, include_bias=False),
LinearRegression())
model_lr.fit(x, y)
# 다항회귀 그래프
plt.scatter(x, y, s=5)
xx = np.linspace(-3, 3, 1000)
yy = model_lr.predict(xx[:, np.newaxis]) # xx.reshape(-1, 1)과 같음
plt.plot(xx, yy)
PolynomialFeatures(degree=2, *, interaction_only=False, include_bias=True)
- degree : 차수
- interaction_only: True면 2차항에서 상호작용항만 출력
- include_bias : 상수항 생성 여부
다항 변환
입력값 x를 다항식으로 변환한다
x→[1,x,x2,x3,⋯]
만약 열의 갯수가 두 개이고 2차 다항식으로 변환하는 경우에는 다음처럼 변환한다.
[x1,x2]→[1,x1,x2,x21,x1x2,x22]
예) [x1=0,x2=1]→[1,0,1,0,0,1]
[x1=2,x2=3]→[1,2,3,4,6,9]
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X
poly = PolynomialFeatures(2)
poly.fit_transform(X)
# 다항차수는 적용하지 않고, 오직 상호작용(교호작용) 효과만을 분석하려면
# interaction_only=True 옵션을 설정해주면 됩니다.
# degree를 가지고 교호작용을 몇 개 수준까지 볼지 설정해줄 수 있습니다.
poly = PolynomialFeatures(2, interaction_only=True)
poly.fit_transform(X)
Linear , Ridge , Lasso , ElasticNet 비교
구분 | Ridge | Lasso | ElasticNet |
---|---|---|---|
제약식 | L2 Norm | L1 Norm | L1+L2 Norm |
변수선택 | 불가능 | 가능 | 가능 |
solution | closed form | 명시해 없음 | 명시해 없음 |
장점 | 변수간 상관관계가 높아도 좋은 성능 | 변수간 상관관계가 높으면 낮은 성능 | 변수간 상관관계를 반영한 정규화 |
특징 | 크기가 큰 변수를 우선적으로 줄임 | 비중요 변수를 우선적으로 줄임 | 상관관계가 큰 변수를 동시에 선택/배제 |
import seaborn as sb
np.random.seed(0)
n_samples = 30
X = np.sort( np.random.rand(n_samples) )
y = np.sin(2 * np.pi * X) + np.random.rand(n_samples) * 0.1
plt.scatter(X, y)
model_lr = make_pipeline(PolynomialFeatures(9), LinearRegression())
model_lr.fit(X.reshape(-1, 1), y)
print( model_lr.steps[1][1].coef_ )
xx = np.linspace(0, 1, 1000)
y_pred = model_lr.predict( xx.reshape(-1, 1) )
plt.plot(xx, y_pred)
plt.scatter(X, y)
plt.ylim(-1.5, 1.5)
model_lr = make_pipeline(PolynomialFeatures(9), Ridge(alpha=0.01))
model_lr.fit(X.reshape(-1, 1), y)
print( model_lr.steps[1][1].coef_ )
xx = np.linspace(0, 1, 1000)
y_pred = model_lr.predict( xx.reshape(-1, 1) )
plt.plot(xx, y_pred)
plt.scatter(X, y)
plt.ylim(-1.5, 1.5)
model_lr = make_pipeline(PolynomialFeatures(9), Lasso(alpha=0.01))
model_lr.fit(X.reshape(-1, 1), y)
print( model_lr.steps[1][1].coef_ )
xx = np.linspace(0, 1, 1000)
y_pred = model_lr.predict( xx.reshape(-1, 1) )
plt.plot(xx, y_pred)
plt.scatter(X, y)
plt.ylim(-1.5, 1.5)
model_lr = make_pipeline(PolynomialFeatures(9), ElasticNet(alpha=0.01, l1_ratio=0.5))
model_lr.fit(X.reshape(-1, 1), y)
print( model_lr.steps[1][1].coef_ )
xx = np.linspace(0, 1, 1000)
y_pred = model_lr.predict( xx.reshape(-1, 1) )
plt.plot(xx, y_pred)
plt.scatter(X, y)
plt.ylim(-1.5, 1.5)