[TIL Day31] Machine Learning 기초 - Linear Models for Regression

이다혜·2021년 6월 19일
0

TIL

목록 보기
32/60

(작성중)

선형 기저 함수 모델

기저함수(Basis Function)

가장 기본적인 선형 모델 y(x,w)=w0+w1x1+...+wDxDy(\bold x,\bold w)=w_0+w_1x_1+...+w_Dx_D 을 고려하자.
x=(x1,,xD)T\bold x=(x_1,…,x_D)^T 이고 이 모델의 파라미터는 w=(w0,,wD)T\bold w=(w_0,…,w_D)^T이다. 위 함수는 파라미터 w\bold w와 입력 데이터 x\bold x 모두에 대해서 선형이다.

x\bold x에 대해 비선형인 함수를 만들고 싶다면, 일반화된 식으로 다음과 같이 표현할 수 있다.
y(x,w)=w0+j=1M1wjϕj(x)y(\bold x,\bold w)=w_0+\displaystyle \sum_{j=1}^{M-1}w_jϕ_j(\bold x)
추가된 함수 ϕj(x)ϕ_j(\bold x)기저함수라고 부르며, 이 함수의 도입으로 기존에는 선형 식이었던 y(x,w)y(\bold x,\bold w) 함수가 x\bold x에 대해 비선형 함수가 될 수 있다. 그러나 w\bold w에 대해서는 여전히 선형임을 기억하자.

표기의 편리성을 위해 ϕ0(x)=1ϕ_0(\bold x)=1 로 정의하고 좀 더 간략한 식으로 기술하기도 한다.
y(x,w)=j=0M1wjϕj(x)=wTϕ(x)y(\bold x,\bold w)=\displaystyle \sum_{j=0}^{M-1}w_jϕ_j(\bold x) = \bold w^Tϕ(\bold x)

  • 다항식 기저함수
    ϕj(x)=xjϕ_j(x)=x^j

  • 가우시안 기저함수
    ϕj(x)=exp{(xμj)22s2}ϕ_j(x)=exp\{− \frac {(x−μ_j)^2}{2s^2}\}

  • 시그모이드 기저함수
    ϕj(x)=σ(xμjs)ϕ_j(x)=σ(\frac {x−μ_j}{s})
    σ(a)=11+exp(a)σ(a)=\frac {1}{1+exp(−a)}

최대우도와 최소제곱법(Maximum Likelihood and Least Squares)

에러함수가 가우시안 노이즈를 가정할 때 최대우도로부터 유도될 수 있다는 것을 살펴보았다. 이를 조금 더 자세히 알아보자. 우리가 예측하려고 하는 타겟값 tt가 다음과 같은 분포를 가진다고 하자.
t=y(x,w)+ϵt=y(\bold x,\bold w)+\epsilon

  • y(x,w)y(\bold x,\bold w)는 결정론적 함수(deterministic)
  • ϵ\epsilon은 가우시안 분포 N(ϵ0,β1)N(\epsilon |0,β^{−1})를 따르는 노이즈 확률변수
  • 따라서 t의 분포는 p(tx,w,β)=N(ty(x,w),β1)p(t|\bold x, \bold w, \beta ) = N(t |y(\bold x,\bold w), β^{−1})

제곱합이 손실함수로 쓰이는 경우, 새로운 x\bold x가 주어졌을 때 tt의 최적의 예측값은 tt의 조건부 기댓값임을 알고있다. tt가 위의 분포를 따르는 경우 조건부 기댓값은 다음과 같다.
E[tx]=tp(tx)dt=y(x,w)\mathbb E[t|\bold x] = \int tp(t|\bold x) \mathrm dt = y(\bold x, \bold w)

파라미터인 w\bold w를 찾기 위해 최대우도추정법을 사용하자.
입력값은 X=x1,...,xN\bold X = \bold x_1, ..., \bold x_N이고 출력값은 t=t1,...,tN\bold t = t_1, ..., t_N이다. 로그 우도함수는 다음과 같다.

따라서 로그 우도함수를 최대화시키는 w\bold w값은 ED(w)E_D(\bold w)로 주어진 제곱합 에러함수를 최소화시키는 값과 동일하다.

위 식을 w\bold w에 대해 미분하고 좌변을 0으로 두고 풀면 w\bold w의 최적값을 구할 수 있다.
wML=(ΦTΦ)1ΦTt\bold w_{ML}=(Φ^TΦ)^{−1}Φ^T\bold t
위 식을 normal equations라고 부른다. 이 때 사용되는 ΦΦN×MN×M 크기의 행렬로 디자인 행렬(design matrix) 이라고 한다.

  • 편향 파라미터 w0w_0
    w0w_0를 함수에서 분리해 기술한다면 에러 함수가 다음과 같이 변하게 된다.

    이 식이 w0w_0로 인해 0이 된다고 하면,

    즉, 에러함수를 최소로 만들어낼 수 있는 w0w_0값의 의미를 살펴보면, 실제 얻어지는 샘플들의 타겟 값들의 평균과 기저함수에 가중치를 곱하여 얻어진 결과의 평균값의 차이를 보정하는 역할을 하게 된다.

  • 노이즈 β\beta의 최적값

최소 제곱법의 기하학적 의미(Geometry of Least Squares)


결국 우리가 구하고자 하는 것은 y\bold y 벡터가 놓일 수 있는 공간 SS 로부터 실제 결과 값 t\bold t 벡터 사이에 가장 가까운 거리를 가지는 한 점을 찾는 것이다.

시퀀스 학습 (Sequential learning)

  • 배치학습 vs 온라인학습
    전체 데이터를 한번에 사용해서 처리하는 배치학습과는 다르게, 데이터가 순차적으로 입력될 때 모델의 파라미터를 학습하는 방법을 온라인학습(시퀀스학습)이라고 한다. 데이터가 순차적으로 입력됨에 따라서 구해야 할 파라미터 값이 계속해서 갱신되어야 한다.

  • Stochastic Gradient Decent
    에러함수를 E=nEnE=\sum_nE_n로 정의하여 파라미터가 업데이트되도록 식을 만들 수 있다.

    여기서 τ\tau는 데이터가 반복적으로 입력된 횟수, ηη는 학습률(learning rate) 파라미터이다.

규제화된 최소제곱법(Regularized Least Squares)

  • 일반화된 규제화

  • q=1q=1 인 경우를 Lasso 모델이라고 한다.
    Constrained minimization 문제로 나타낼 수 있다.

편향-분산 분해(Bias-Variance Decomposition)

베이지안 선형회귀(Bayesian Linear Regression)

profile
하루하루 성장중

0개의 댓글