[Pattern Recognition] 03. Least Square

김기진·2025년 12월 22일

pattern-recognition

목록 보기
3/10

최소제곱법

정의

  • 과결정 시스템의 해를 근사하는 회귀 분석의 표준법

과결정이란?

  • 추정해야할 매개변수 개수보다 데이터 포인트가 더 많은 경우
  • 예: nn개의 데이터 포인트와 pp개의 특징을 가진 선형 회귀 문제에서, n>pn > p이면 시스템은 과결정

특징

  • 최소 제곱법은 기저함수와 관계 없이 파라미터에 대해서만 선형 구조를 갖는다면 사용할 수 있음
  • 모델의 예측값과 실제 값의 차이를 최소화하는 방식
  • 선형 회귀에서는 MSE 를 비용함수로 사용함

회귀 분석에서의 역할

  • 모델 피팅: 데이터에 잘 맞는 초평면 찾기
  • 파라미터 추정: 모델의 매개변수를 추정하는 방법 제공
  • 오차 최소화: 잔차의 제곱합 최소화 (RSS)

기하학적 접근 이해하기

왜 기하학적 관점이 중요한가?

  • 백터 공간에서 선이나 평면이 어떻게 데이터에 피팅되는지 시각적으로 파악할 수 있음
  • 수식 너머로 잔차 최소화의 의미를 명확하게 이해할 수 있음
  • 기하학적으로 잔차 벡터를 최소화하는 것을 의미함
  • 잔차 벡터는 실제 데이터와 회귀 평면에 투영된 값의 차이를 나타냄

핵심 구성 요소

  • A (Feature Matrix)

    • 각 행: 하나의 데이터 샘플 (sample/instance)
    • 각 열: 하나의 특성(feature)
    • 예: m개 샘플 × n개 특성의 행렬
  • x (Weight Vector/Parameter Vector)

    • 각 특성에 대한 가중치(weight) 또는 파라미터
    • 모델이 학습해야 하는 값들
    • 크기: n×1 벡터
  • b (Target Vector)

    • 실제 답(ground truth/label)
    • 우리가 예측하고자 하는 실제 값들
    • 실제로는 C(A) 위에 없을 수 있음
    • 크기: m×1 벡터
  • C(A) (Column Space)

    • Ax가 나타낼 수 있는 모든 공간
    • 설명 변수들이 만들어내는 초평면
    • A의 열벡터들의 선형결합으로 만들 수 있는 모든 벡터들의 집합
    • 즉, 우리 모델이 표현 가능한 모든 예측값들의 공간

투영과 직교의 의미

  • 초평면: 회귀 모델이 예측 할 수 있는 모든 값들의 집합
  • 투영: 최소제곱법은 실제 데이터들을 이 평면에 투영시킴
  • 모델의 예측값: 초평면에 투영된 값
  • 투영과 직교

    • Least Squares 해는 설명 변수들이 만들어내는 초평면에 정답 벡터를 투영하는 것으로 볼 수 있음
    • 이때 잔차 백터는 초평면에 직교함
  • 행렬 AA가 있을 때, 벡터 bb에 가장 가까운 AxA\mathbf{x}를 찾는 문제

    • C(A)C(A): AA의 열공간 (열벡터들의 선형결합으로 생성 가능한 후보들의 집합 공간)
    • 벡터 bb는, AA가 생성하는 공간(C(A)C(A)) 위에는 없을 수 있음
    • 목표: AxA\mathbf{x}bb에 가장 가깝게 하기 (즉, 잔차 e=bAx\mathbf{e}=b-A\mathbf{x}의 크기 최소화 하기, AxA\mathbf{x} 에 대한 bb 투영 찾기)

수학적 유도

목표

  • 오차 벡터 크기를 최소화 하기: 오차백터의크기=(𝑏𝐴𝑥)2오차 백터의 크기 = (𝑏 − 𝐴𝑥)^2
  • 기하학적으로 보면: 벡터 AxAx 와 bAxb−Ax 가 서로 수직(직교) 일 때 오차 벡터가 최소가 됨
  • 따라서 다음을 만족해야한다: (bAx)TAx=0(b−Ax)^TAx=0
    • A가 풀랭크인 경우에만 성립
    • 풀랭크가 아니면 역행렬을 가질 수 없음
    • 어떤 컬럼이 다른 컬럼(들)의 선형 결합으로 이루어진 경우를 풀랭크가 아니라고함
AT(bAx)=0A^{\mathsf T}(\mathbf{b}-A\mathbf{x}) = 0
ATbATAx=0A^{\mathsf T}\mathbf{b} - A^{\mathsf T}A\mathbf{x} = 0
ATb=ATAxA^{\mathsf T}\mathbf{b} = A^{\mathsf T}A\,\mathbf{x}
x=(ATA)1ATb\mathbf{x} = (A^{\mathsf T}A)^{-1}A^{\mathsf T}\mathbf{b}

요약

  1. 예측의 공간: 모든 예측 벡터 AxA\vec{x}는 'A의 열 공간(C(A)C(A))'이라는 한정된 공간 안에만 존재합니다.
  2. 현실의 정답: 실제 정답 벡터 b\vec{b}는 이 공간(C(A)C(A)) 밖에 있을 가능성이 높습니다.
  3. 최적의 예측: MSE를 최소화한다는 것은, 공간(C(A)C(A)) 안의 수많은 예측값 AxA\vec{x} 중에서 실제 정답 b\vec{b}와 가장 가까운 벡터를 찾는 것입니다.
  4. 최소 거리의 조건: 그 가장 가까운 지점은 바로 b\vec{b}를 C(A)C(A) 평면에 수직으로 투영 한 지점입니다. 이때 오차(잔차) 벡터 e=bAx\vec{e} = \vec{b} - A\vec{x}는 예측 공간 C(A)C(A) 전체와 수직 을 이룹니다.

0개의 댓글