곱셈을 덧셈으로 변환:
로그 함수는 곱셈을 덧셈으로 변환하는 성질을 가집니다. 즉, 두 양수 a와 b에 대해 다음이 성립합니다. log(ab)=log(a)+log(b)
지수 법칙:
로그 함수는 지수를 밖으로 가져오는 성질이 있습니다. 즉, 양수 a와 실수 r에 대해 다음이 성립합니다. log(ar)=r⋅log(a)
지수 함수
자연상수 e를 밑으로 하는 지수 함수 ex를 의미한다. exp(x)는 e의 x 제곱으로, 어떤 수의 지수적 증가를 의미합니다.
지수 함수와 로그함수의 관계 exp와 log는 서로의 역함수 관계에 있습니다. exp(log(x))=x log(exp(x))=x
ln(x)의 미분 dxdln(x)=x1
밑이 e가 아닌 로그 함수 loga(x)의 미분 dxdloga(x)=xln(a)1
확률론적 관점에서의 Linear Regression
선형 회귀 모델은 종속 변수 y가 독립 변수 x의 선형 조합과 가우시안(정규) 노이즈의 합으로 모델링 될 수 있다고 가정합니다.
P(y∣x,Θ)=N(y∣wTx,σ2)
여기서:
N 은 정규 분포를 나타냅니다.
w는 모델 파라미터(가중치) 벡터입니다.
σ2 는 노이즈의 분산을 나타냅니다.
Θ는 모델 파라미터의 집합을 의미합니다.
로그-우도(Log-likelihood)
로그-우도 함수는 주어진 데이터와 모델 파라미터에 대한 확률 분포의 로그를 취한 것입니다. 선형 회귀에서 로그-우도는 다음과 같이 주어집니다.
ℓ(Θ)=∑n=1Nlog[2πσ21exp(−2σ21(y(n)−wTx(n))2)]
이를 단순화하면 다음과 같습니다.
ℓ(Θ)=−2σ21∑n=1N(y(n)−wTx(n))2−2Nlog(2πσ2)
로그-우도를 최대화하는 것은 제곱 잔차합(Residual Sum of Squares, RSS)을 최소화하는 것과 동일합니다. 이는 곧 손실 함수를 최소화하는 것과 같습니다.
Residual Sum of Square (RSS)
RSS는 관측값과 모델 예측값 사이의 차이의 제곱합입니다. 로그-우도 함수에서 첫 번째 항만을 고려할 때, RSS는 다음과 같이 주어집니다.
RSS(w)=21∑n=1N(y(n)−wTx(n))2
벡터와 행렬을 사용하면 RSS는 다음과 같이 표현됩니다.
RSS(w)=21∥y−Xw∥2=21(y−Xw)T(y−Xw)
21(y−Xw)T(y−Xw) 는 벡터의 놈(norm)의 제곱을 행렬의 형태로 나타낸 것입니다. 벡터의 놈의 제곱은 벡터와 그 전치 벡터의 내적(dot product)과 같습니다. 즉, 벡터 a의 놈의 제곱은 ∥a∥2=aTa입니다.
RSS를 최소화하는 w를 찾기 위해, RSS의 그라디언트를 0으로 설정합니다.
∇wRSS(w)=XTXw−XTy
이 방정식을 w에 대해 풀면 최적의 가중치 벡터를 찾을 수 있으며, 이는 다음과 같은 해석적 해를 갖습니다.
w=(XTX)−1XTy
If X is full rank(the columns of X are linearly independent), the elast square object has a unique global minimum.
예를 들어, data collinearity, MulitCollinearity일 경우엔 X는 Full rank가 아니다. collinearity라는 것은 결국엔 a column이 b column의 배수라면 둘 중 한 column은 필요없게 된다.