최소제곱해 (least squares solution)
선형회귀 모델은 b=Ax의 해를 찾는 문제로 생각할 수 있습니다. 그러나, 위 식이 해를 가지지 않는다(inconsistent)면 어떻게 할까요? 근사치 즉, best approximate solution을 찾아야할 것입니다.
그런데 best approximate solution이라는 것은 어떻게 정의되는 걸까요?
우리의 best approximate solution은 least-squares solution이라는 이름을 가지는데요, 다음 정의를 보면 왜 least-squares solution이라고 부르는 지 알 수 있습니다.
Let A: m×n matrix and b: vector in Rm.
A least-squares solution of the matrix equation b=Ax is a vector x^ in Rn s.t.
dist(b,Ax^)≤dist(b,Ax) for ∀x∈Rn.
dist(b,Ax^)=∣∣b−Ax^∣∣이고, 이 값은 벡터 b−Ax^의 원소들의 제곱을 모두 더한 값에 제곱근을 씌운 값입니다. 따라서, b−Ax^ 벡터의 원소들의 제곱을 모두 더한 값 (sum of squares)을 최소로 하는 해(solution)이기 때문에 최소제곱해(least-squres solution)이라고 부릅니다.
최소제곱해를 그림으로도 살펴보겠습니다.
방정식 b=Ax가 해를 갖지 않는다고 가정하겠습니다.
식의 우변인 Ax는 A의 column space, col(A)에 속하는 벡터이므로, b=Ax가 해를 갖지 않는다는 것은, b가 col(A)에 속하지 않는다는 것입니다.
https://textbooks.math.gatech.edu/ila/least-squares.html
따라서 위 그림처럼, 벡터 b는 col(A)에 속하지 않고 동떨어져있습니다.
그렇다면 dist(b,Ax^)≤dist(b,Ax) for ∀x∈Rn를 만족하는 최소제곱해 x^는 어떤 녀석일까요?
바로 col(A)와 b 사이의 거리가 최소가 되도록 하는 벡터입니다. 즉, b의 col(A)로의 orthogonal projection 입니다!
사실 이것은 best approximation theorm에 의한 결과이죠.
The Best Approximation Theorem
Let W be a subspace of Rn, let y be any vector in Rn, and let y^ be the orthogonal projection of y onto W. Then y^ is theclosest point in W to y, in the sense that
∣∣y−y^∣∣<∣∣y−v∣∣ for all v in W distinct from y^.
정규방정식 (normal equation)
b=Ax가 해를 갖지 않을 때, 이 방정식의 최소제곱해(least square solution)이 b의 col(A)로의 orthogonal projection 임을 알게되었습니다.
구체적으로 최소제곱해를 구하는 방법을 알아보겠습니다.
Orthogonal Decomposition Theorem
Let W: subspace of Rn. Then each y∈Rn can be written uniquely in the form y=y^+z, where y^∈W and z∈W⊥.
b는 orthogonal decomposition theorem에 의해 다음과 같이 분해될 수 있습니다.
b=b^+(b−b^), where b^∈col(A),(b−b^)∈col(A)⊥
행렬 A의 j번째 column을 aj라고 할 때, 다음을 확인할 수 있습니다.
(b−b^)∈col(A)⊥⟺(b−b^)⊥col(A)⟺(b−Ax^)⊥col(A)
⟺(b−Ax^)⋅aj=0 for j=1,…,n⟺ajT(b−Ax^)=0 for j=1,…,n
⟺AT(b−Ax^)=0⟺ATb=ATAx^
제일 마지막 식인 ATb=ATAx^를 Ax=b의 정규방정식이라고 부릅니다.
즉, (Ax=b 최소제곱해집합) = (ATAx^=ATb의 해집합) 입니다.
그런데 최소제곱해는 유일하게 존재할까요? 일반적으로는 그렇지 않습니다.
A의 column들이 linearly dependent한 경우에는 무한히 많은 해를 갖습니다.
유일하게 존재하는 경우는 다음 theorem으로 정리할 수 있습니다.
Theorem
Let A: m×n matrix and b∈Rm.
The following are equivalent:
1. Ax=b has a unique least-squares solution.
2. The columns of A are linearly independent.
3. ATA is invertible.
In this case, the least-square solution is x^=(ATA)−1ATb.
(proof)
(1. ⟺ 3.)
Ax=b의 최소제곱해는 ATAx^=ATb의 해와 같습니다.
그리고 다음을 만족하는 두 벡터 v,u를 생각해보겠습니다:
ATAv=ATb and ATAu=0.
이 때, v=v′+u for some v′ s.t. ATAv′=ATb 입니다.
즉, ATAx^=ATb의 해집합은 ATAx=0의 해집합을 translate한 형태입니다.
이로부터, 'Ax=b의 해가 유일하다 ⟺ ATAx^=ATb의 해가 유일하다 ⟺ ATAx=0의 해가 유일하다' 는 것을 이끌어낼 수 있습니다.
그리고 ATAx=0의 해가 유일하기 위해서는 정방행렬 ATA가 invertible 해야함을 알 수 있습니다.
따라서, 위 Theorem의 1과 3이 equivalent함을 확인하였습니다.
(1. ⟺ 2.)
이제 1과 2가 equivalent함을 보이겠습니다.
b^=projcol(A)b라 하면, Ax=b의 최소제곱해는 Ax=b^의 해입니다.
따라서, Ax=b의 해가 유일하면, Ax=b^도 유일한 해를 갖습니다.
Ax=b^가 유일한 해를 갖는다 ⟺ columns of A is linearly independent 이므로, 1과 2가 equivalent함을 알 수 있습니다.
참고문헌