이번 글에서는 이 중 Linear Regression(선형 회귀)에 대해 정리해보려 한다!
용어 정리
x : input variable = feature = explanatory variable
y : output variable = label = target
1. Simple Linear Regression
단순 선형 회귀 모델을 살펴보자.
(하나의 입력 변수 x로부터 출력 변수 y를 예측하는 linear regression)
y^=w⋅x+b
w : weight (가중치)
b : bias (편향)
여기서 가중치와 편향을 파라미터라고 한다.
그렇다면 이 파라미터는 어떻게 결정할까?
2. 모델 파라미터 학습: Cost Function
📌 목적 : 비용 함수를 최소화하는 파라미터 찾기
💡 비용 함수 (Cost Function)란?
모델이 얼마나 잘 예측하는지를 판단하기 위한 함수
손실 함수 (Loss Function)
오차 제곱 (Squared Error) : 개별 샘플i에 대해
Loss=(y^i−yi)2
비용 함수 (Cost Function)
Sum of Squared Error (SSE) : 전체 샘플에 대한 손실의 합
J(w,b)=sum((w⋅xi+b−yi)2)
3. 최적화(1): Least Squares Estimation (LSE)
앞서 선형 회귀 모델의 목적은
👉 예측값과 실제값의 차이인 cost function을 최소화하는 파라미터를 찾는 것이었다.
💡 Least Squares Estimation (LSE)란?
: cost function 중 하나인 SSE를 최소화하는 파라미터 w, b를 수학적으로 구하는 방법
파라미터가 1개일 경우: w
이때 SSE는 2차 함수 형태로 볼록(convex)하다.
따라서 ∂w∂SSE=0이 되는 지점(기울기가 0이 되는 지점)을 만드는 w를 찾으면 된다.
파라미터가 2개일 경우: w,b
SSE는 w, b 두 축에 대한 3차원 볼록 함수가 된다.
가로축: weight w
세로축: bias b
높이축: SSE(w,b)=(wx+b−y)2
가운데 파란 점은 모든 파라미터(w, b)에 대해 기울기 = 0인 지점, 즉 SSE가 최소가 되는 해
👉 이 점이 바로 우리가 찾는 최적의 파라미터 w^,b^
📌 공식 (Closed-form Solution)
w^=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ),b^=yˉ−w^⋅xˉ
xˉ, yˉ: 각각 x와 y의 평균
이 공식은 모든 데이터에 대해 미분값이 0이 되는 지점을 수학적으로 풀어낸 결과
계산된 해는 반복 없이 바로 구할 수 있는 닫힌 해이며, 수학적으로 유도 가능하다.
근사해가 아니라 정확한 수학적 해
4. 최적화(2): Maximum Likelihood Estimation (MLE)
💡 MLE란?
주어진 데이터가 현재 모델(파라미터) 하에서 발생할 가능성(우도, Likelihood)이 가장 높도록 하는 파라미터를 찾는 방법이다.
선형 회귀 모델을 이렇게 표현해보자:
y=wx+b+ε,ε∼N(0,σ2)
ε: 에러 항 (노이즈), 평균 0, 분산 σ2인 정규분포를 따른다고 가정
즉,
👉 모델이 완벽히 데이터를 설명하지 못하고 오차가 있을 수 있음을 고려해 확률적 관점에서 모델을 본다.
📌 가정
MLE를 적용하려면 다음 조건이 성립해야 한다:
Linearity: y는 x에 대해 선형으로 표현됨
Normality: 오차는 정규분포를 따름
Homoscedasticity: 오차의 분산은 일정함 (등분산성)
이러한 조건 하에서 likelihood를 계산할 수 있다.
Likelihood (우도)
각 데이터 샘플(x(i),y(i))이 특정 파라미터 θ=(w,b)에서 발생할 확률:
L(θ)=i=1∏np(y(i)∣x(i),θ)
→ 전체 데이터에 대한 joint likelihood는 각 데이터의 likelihood를 모두 곱한 것
‼️ but, 곱은 미분이나 최적화에 불편
Log-likelihood
log를 취해서 더하기로 바꾼다
cf) 이때, log 함수는 단조 증가 함수이므로, log를 취해도 최댓값의 위치는 변하지 않음
J(θ)=logL(θ)=i=1∑nlogp(y(i)∣x(i),θ)
앞서 오차항 ε∼N(0,σ2)라고 했으므로,
각 y(i)는 다음과 같은 정규분포를 따른다:
p(y(i)∣x(i),θ)=2πσ21exp(−2σ2(y(i)−wx(i)−b)2)
📌 최종 식:
logL(θ)=−nlog2πσ2−2σ21i=1∑n(y(i)−wx(i)−b)2
앞부분은 상수항이므로 실제로 최적화할 대상은 아래 항(제곱합) 부분이다.
i=1∑n(y(i)−wx(i)−b)2
→ 결국 SSE를 최소화하는 것과 동일!
즉,
θ^MLE=θ^LSE
👉 MLE로 구한 파라미터 = LSE(최소제곱법)로 구한 파라미터
5. 다중 선형 회귀 (Multiple Linear Regression)
앞서 단순 선형 회귀(Simple Linear Regression)에서는 하나의 입력 변수 x만을 사용해 y를 예측했다.
하지만 현실의 대부분 문제는 여러 변수들을 함께 고려해야 정확한 예측이 가능하다.
👉 이때 사용하는 것이 바로 다중 선형 회귀(Multiple Linear Regression)다.
📌 모델 수식
y=β0+β1x1+β2x2+⋯+βkxk+ε,ε∼N(0,σ2)
x1, x2, …, xk: 입력 변수 (features)
β0,β1,…,βk: 파라미터 (총 k+1개)
(→ loss function k+1 차원)