(6-2) 머신러닝 기초 - 선형회귀

벡터 $\bold t \in\R^m$ 의 $\text{span}(\{\bold x_1, \bold x_2, \dots, \bold x_n\})(\bold x_i\in\R^m)$ 으로의 사영(projection)은 $\text{span}(\{\bold x_1, \bold x_2, \dots, \bold x_n\})$ 에 속한 벡터 중 $\bold t$ 에 가장 가까운 벡터로 정의된다.

\text{Proj}(\bold t; \{\bold x_1, \bold x_2, \dots, \bold x_n\})=\text{argmin}_{\bold v\in\text{span}(\{\bold x_1, \bold x_2, \dots, \bold x_n\})}||\bold{t-v}||_2

$\text{Proj}(\bold t; \bold A)$ 은 행렬 $\bold A$ 의 치역으로의 사영이다. $A$ 의 열들이 선형독립이면,

\text{Proj}(\bold t; \bold A)=\text{argmin}_{\bold v\in R(A)}||\bold{t-v}||_2=\bold {A(A^TA)^{-1}A^Tt}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fadd8cbc1-de3d-4311-8ec0-f7580f322023%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fadd8cbc1-de3d-4311-8ec0-f7580f322023%2Fimage.png)

온라인 학습 (Sequential Learning)

데이터가 너무 큰 경우 계산이 힘들어짐 → 여러가지 대안 중 온라인 학습이 있음

가지고 있는 전체 데이터를 한꺼번에 사용하는 것이 아니라 조금씩 나누어서 업데이트 진행

👉 온라인 학습을 이용하면 데이터가 아무리 크더라도 학습을 진행할 수 있다.

Stochastic gradient decent

온라인 학습 방법 중 가장 많이 쓰이는 방법

에러함수가 $E=\sum_n E_n$ 이라고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff2863cfc-c8c9-4dac-a912-c8e07374a94f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff2863cfc-c8c9-4dac-a912-c8e07374a94f%2Fimage.png)

제곱합 에러함수인 경우

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb971a730-5884-4afd-abef-a72741daf08d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb971a730-5884-4afd-abef-a72741daf08d%2Fimage.png)

$\phi_n=\phi(\bold x_n)$

(실습) Stochastic gradient decent 이용하여 대규모의 선형회귀

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

N = 1000
M = 3
rng = np.random.RandomState(1)
rng.rand(N, M).shape
X = 10 * rng.rand(N, M)
np.dot(X, [1.5, -2., 1.]).shape
# (1000,)

rng = np.random.RandomState(1)
X = 10 * rng.rand(N, M)
y = 0.5 + np.dot(X, [1.5, -2., 1.])

model.fit(X, y)
print(model.intercept_)
print(model.coef_)
# 0.4999999999999689
# [ 1.5 -2.   1. ]

Normal Equations

import numpy.linalg as LA
normal_equation_solution = LA.inv(X.T@X)@X.T@y
normal_equation_solution
# array([ 1.52825484, -1.96886193,  1.03058857])

Small Memory Normal Equations (Online)

A = np.zeros([M, M])
b = np.zeros([M, 1])

for i in range(N):
    A = A + X[i, np.newaxis].T@X[i, np.newaxis]
    b = b + X[i, np.newaxis].T*y[i]
solution = LA.inv(A)@b
solution
# array([[ 1.52825484],
#        [-1.96886193],
#        [ 1.03058857]])

👉 장점 : 메모리를 적게 사용

SGD(Stochastic Gradient Decent)

w = np.zeros([M, 1])
eta = 0.001
n_iter = 500

for i in range(n_iter):
    i = i % N
    neg_gradient = (y[i] - w.T@X[i, np.newaxis].T) * X[i, np.newaxis].T
    w = w + eta * neg_gradient
w
# array([[ 1.51033015],
#        [-1.93792375],
#        [ 1.0123695 ]])

규제화된 최소제곱법(Regularized Least Squares)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fad751bd3-2718-48a6-aa03-51239f3c3927%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fad751bd3-2718-48a6-aa03-51239f3c3927%2Fimage.png)

가장 단순한 형태는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fddddfe3b-7bae-42c4-a594-2f66941b497b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fddddfe3b-7bae-42c4-a594-2f66941b497b%2Fimage.png)

최종적인 에러함수는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe479be46-c3e0-490f-be94-bf72df61ff52%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe479be46-c3e0-490f-be94-bf72df61ff52%2Fimage.png)

$\bold w$ 의 최적값은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb65d32bf-e80d-4721-a7f5-9139837e64a0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb65d32bf-e80d-4721-a7f5-9139837e64a0%2Fimage.png)

일반화된 규제화

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F0dfe30d8-a927-4ba4-a4f7-27351f9c0f92%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F0dfe30d8-a927-4ba4-a4f7-27351f9c0f92%2Fimage.png)

Lasso 모델( $q=1)$

Constrained minimization 문제로 나타낼 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8f2e76ab-35bc-4091-bc89-1c20fe5a52e3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8f2e76ab-35bc-4091-bc89-1c20fe5a52e3%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F0dd5bb11-4865-4a67-a0bf-afbba82341aa%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F0dd5bb11-4865-4a67-a0bf-afbba82341aa%2Fimage.png)
왼쪽이 L2 norm, 오른쪽이 L1 norm
노란색 도형은 제약조건을 나타냄

편향-분산 분해 (Bias-Variance Decomposition)

모델이 과적합되는 현상에 대한 이론적인 분석

제곱합 손실함수가 주어졌을 떄의 최적 예측값

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F89955f6d-22c1-4734-896c-35b772cffe20%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F89955f6d-22c1-4734-896c-35b772cffe20%2Fimage.png)

손실함수의 기댓값

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe36fbfcf-2b73-4a15-8bcc-bb41fe982339%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe36fbfcf-2b73-4a15-8bcc-bb41fe982339%2Fimage.png)

제한된 데이터셋 $D$ 만 주어져 있기 때문에 $h(\bold x)$ 를 정확히 알 수는 없다.

대신 파라미터화 된 함수 $y(\bold x, \bold w)$ 를 사용하여 최대한 손실함수의 기댓값을 최소화하고자 한다.

제한된 데이터로 인해 발생하는 모델의 불확실성(uncertainty)를 어떻게든 표현해야 한다.

베이시안 방법: 모델 파라미터 $\bold w$ 의 사후확률분포를 계산한다.
빈도주의 방법: 모델 파라미터 $\bold w$ 의 점추정값을 구하고 여러 개의 데이터셋을 가정했을 때 발생하느 ㄴ평균적인 손실을 계산하는 "가상의 실험"을 통해 점추정값의 불확실성을 해석한다.