[Pattern Recognition] 03. Least Square

김기진·2025년 12월 22일

pattern-recognition

목록 보기

3/10

정의

과결정이란?

특징

회귀 분석에서의 역할

왜 기하학적 관점이 중요한가?

핵심 구성 요소

A (Feature Matrix)
- 각 행: 하나의 데이터 샘플 (sample/instance)
- 각 열: 하나의 특성(feature)
- 예: m개 샘플 × n개 특성의 행렬
x (Weight Vector/Parameter Vector)
- 각 특성에 대한 가중치(weight) 또는 파라미터
- 모델이 학습해야 하는 값들
- 크기: n×1 벡터
b (Target Vector)
- 실제 답(ground truth/label)
- 우리가 예측하고자 하는 실제 값들
- 실제로는 C(A) 위에 없을 수 있음
- 크기: m×1 벡터
C(A) (Column Space)
- Ax가 나타낼 수 있는 모든 공간
- 설명 변수들이 만들어내는 초평면
- A의 열벡터들의 선형결합으로 만들 수 있는 모든 벡터들의 집합
- 즉, 우리 모델이 표현 가능한 모든 예측값들의 공간

투영과 직교의 의미

초평면: 회귀 모델이 예측 할 수 있는 모든 값들의 집합

투영: 최소제곱법은 실제 데이터들을 이 평면에 투영시킴

모델의 예측값: 초평면에 투영된 값

투영과 직교
- Least Squares 해는 설명 변수들이 만들어내는 초평면에 정답 벡터를 투영하는 것으로 볼 수 있음
- 이때 잔차 백터는 초평면에 직교함
행렬 $A$ 가 있을 때, 벡터 $b$ 에 가장 가까운 $A\mathbf{x}$ 를 찾는 문제
- $C(A)$ : $A$ 의 열공간 (열벡터들의 선형결합으로 생성 가능한 후보들의 집합 공간)
- 벡터 $b$ 는, $A$ 가 생성하는 공간( $C(A)$ ) 위에는 없을 수 있음
- 목표: $A\mathbf{x}$ 가 $b$ 에 가장 가깝게 하기 (즉, 잔차 $\mathbf{e}=b-A\mathbf{x}$ 의 크기 최소화 하기, $A\mathbf{x}$ 에 대한 $b$ 투영 찾기)

목표

오차 벡터 크기를 최소화 하기: $오차 백터의 크기 = (𝑏 − 𝐴𝑥)^2$
기하학적으로 보면: 벡터 $Ax$ 와 $b−Ax$ 가 서로 수직(직교) 일 때 오차 벡터가 최소가 됨
따라서 다음을 만족해야한다: $(b−Ax)^TAx=0$
- A가 풀랭크인 경우에만 성립
- 풀랭크가 아니면 역행렬을 가질 수 없음
- 어떤 컬럼이 다른 컬럼(들)의 선형 결합으로 이루어진 경우를 풀랭크가 아니라고함

A^{\mathsf T}(\mathbf{b}-A\mathbf{x}) = 0

A^{\mathsf T}\mathbf{b} - A^{\mathsf T}A\mathbf{x} = 0

A^{\mathsf T}\mathbf{b} = A^{\mathsf T}A\,\mathbf{x}

\mathbf{x} = (A^{\mathsf T}A)^{-1}A^{\mathsf T}\mathbf{b}

예측의 공간: 모든 예측 벡터 $A\vec{x}$ 는 'A의 열 공간( $C(A)$ )'이라는 한정된 공간 안에만 존재합니다.
현실의 정답: 실제 정답 벡터 $\vec{b}$ 는 이 공간( $C(A)$ ) 밖에 있을 가능성이 높습니다.
최적의 예측: MSE를 최소화한다는 것은, 공간( $C(A)$ ) 안의 수많은 예측값 $A\vec{x}$ 중에서 실제 정답 $\vec{b}$ 와 가장 가까운 벡터를 찾는 것입니다.
최소 거리의 조건: 그 가장 가까운 지점은 바로 $\vec{b}$ 를 $C(A)$ 평면에 수직으로 투영 한 지점입니다. 이때 오차(잔차) 벡터 $\vec{e} = \vec{b} - A\vec{x}$ 는 예측 공간 $C(A)$ 전체와 수직 을 이룹니다.