Linear Regression

JoongHyun's Blog·2022년 10월 29일
0

linear regression wiki

in statistics, linear correlation of independent variables;x and dependent variables;y modeling . if x has multi values, then multi L.R

generaliy, a linear regression model is established using the least square method.
or method that minimizes a loss function.

yi=β1xi1++βpxip+εi\displaystyle y_{i}=\beta _{1}x_{i1}+ \cdots + \beta _{p}x_{ip}+\varepsilon _{i}

주어진 식에서 βi\beta _{i}는 각 독립변수의 계수이며, p는 선형 회귀로 추정되는 모수의 개수이다. T는 전치를 의미하고, xiTβx_i^T β는 x_i와 β의 내적을 의미한다.
epsilon은 오차항, 오차 변수로, 관찰되지 않은 확률 변수이며, 종속 변수와 독립 변수 사이에 오차를 의미한다.

이것이 선형 회귀라 불리는 것은, 종속변수가 독립변수에 대해 선형 함수(1차 함수)의 관계에 있을 것이라 가정하기 때문이다. 그러나 x에 따른 다항 함수는 그래프가 직성상에 있지 않더라도 선형 회귀라고 할수있다.

선형 회귀에서의 가정

표준 선형 회귀 분석 모델에서는 예측 변수, 응답 변수 그리고 그 사이의 관계에 대해 다양한 가정을 한다. 확장된 선형 회귀 분석에서는 이러한 가정을 완화하기도 하고, 때로는 가정을 제거하기도 한다. 일반적으로 확장된 선형 회귀는 추정 과정을 더 복잡하게 하거나 시간을 더 많이 소모한다. 정확한 모델을 세우기 위해 더 많은 데이터가 요구하기도 한다. 표준 선형 회귀에서의 대표적인 가정들은 다음과 같다.

약한 외생성.

생성은 변수가 외적으로 영향 받아 만들어지게 되는 상태를 의미한다. 출처: 설명 변수 x를 확률 변수가 아니라, 고정된 값으로 취급한다. 이는 설명 변수가 에러가 없음을 의미한다. 측정 오차로 인해 설명 변수가 오염되지 않았음을 가정하는 것과 같다. 이러한 가정이 현실적이지 않지만, 이 가정을 제외하면 설명 변수에 오차를 포함한 모델을 세워야 한다.

약한 외생성

선형성.

응답 변수가 예측 변수와 선형 회귀 계수의 선형 조합으로 표현 가능함을 의미한다. 이는 생각보다 까다롭지 않은 가정인데, 이것은 파라미터에 대한 선형성만 가정하기 때문이다. 예측 변수는 임의로 변형될 수도 있고, 동일한 예측 변수가 더해질 수도 있고, 하나를 다르게 변형할 수도 있다. 이러한 기법이 실제로 다항 회귀에 사용된다. 응답 변수를 예측 변수에 대한 임의의 다항 함수로 모델링한다. 이는 선형 회귀를 매우 강력하게 만든다. 실제로 이러한 다항 회귀는 때로 너무 강력해서, 모델이 데이터에 과적합(overfit)하게 되기도 한다. 이를 방지하기 위해 일종의 정규화 기법을 사용할 수도 있다. 이를 적용한 예로는 능형 회귀분석(ridge regression) 또는 Lasso 회귀 등이 있다. 베이지안 선형 회귀 또한 사용할 수 있는데, 베이지안 선형 회귀는 근본적으로 과적합을 방지하는 효과를 갖는다.

상수 분산(동분산성).

이는 서로 다른 응답 변수들의 오차가 설명 변수와 무관하게 항상 같은 분산을 가짐을 의미한다. 실제로는 이러한 가정은 타당하지 않다. 응답 변수들의 오차가 같은 분산을 갖지 않으며, 오차의 분산은 설명 변수에 영향을 받는다.

오차의 독립성.

독립 변수의 오차가 서로 무관함을 가정한다. 일부 선형 회귀 기법은 상관된 오차를 다룰 수 있지만, 정규화가 적용되지 않은 상황에서는 더 많은 데이터를 필요로 한다. 베이지안 선형 회귀가 이러한 문제를 다루는 일반적인 기법이다.

예측 변수에서의 다중공선성의 부재.

표준 최소제곱법 추정 기법에서, 설계 행렬 X는 반드시 전열계수 p를 갖는다. 그렇지 않으면, 예측 변수 사이에 다중공선성이 생긴다. 이는 두 개 이상의 상관된 예측 변수로 인해 발생한다. 또한, 추정하고자 하는 파라미터에 비해 데이터가 너무 적어도 발생할 수 있다. 다중공선성이 발생하면, 파라미터 벡터 β는 유일한 해를 갖지 않게 된다. 다중공선성이 있는 상황에서도 선형 회귀 모델을 만들 수 있는 기법이 개발되긴 했으나, 몇 가지 추가적인 가정이 필요하다.

선형 회귀 모델 추정 기법

  • 이상치를 포함한 데이터를 기반으로 한 테일 센 추정기(검은색)과 단순 선형 회귀 분석(파란색)의 비교

선형 회귀에서 파라미터 추정을 위해 다양한 기법들이 개발되었다. 각각의 기법들은 알고리즘의 연산 복잡도, 닫힌 형태의 해법 존재 여부, 데이터의 분포에 대한 가정, 변수의 관계에 대한 이론적 가정 등이 다르다. 아래에서는 일반적인 선형 회귀 추정 기법에 대해 설명하고자 한다.

Ordinary least squares

(OLS)는 가장 단순하고 많이 쓰이는 추정 방법이다. 이는 개념적으로 단순하고, 계산이 간단하다. OLS 추정은 일반적으로 실험이나 관측치에 적용하고자 할 때 사용한다. OLS 기법은 오차의 제곱의 합을 최소화하는 기법으로, 추정하고자 하는 파라미터 β에 대한 표현식을 다음과 같이 구할 수 있다.

오차가 유한한 분산을 가지며, 오차가 독립 변수와 연관되어 있지 않다면, 추정은 편향되어있지 않고, 일관성 있다.

E[xiϵi]=0{E}[x_i\epsilon_i] = 0
profile
AI와 수학, 일상 기록들

0개의 댓글