프랜시스 골턴(F.Galton)의 1885년 논문, “Regression toward Mediocrity in Hereditary Stature”
(유전에 의한, 평균 신장으로의 회귀)에서 유래한 이름입니다.
그런데 사실…
입력값이 무엇이든, 출력값이 연속형 변수인 모델을 사용하는 방법론
입력변수는 여러개거나 범주형이라도 상관없습니다.
출력변수가 여러개인 경우도 있습니다.
입력번수가 여러개인가?
출력변수는 여러개인가?
사용하는 모델이 선형 모델인가?
다변량, 또는 비선형인 경우는 이 강의에서 다루지 않음
직선의 기울기(a)와 y절편(b)을 조절해 데이터의(점들)와의 오차가 가장 작아지도록 만들기
여기서 오차는 목펴값과 출력값 간 차이의 제곱으로 정의되는, MSE 손싨함수를 사용합니다.
고정된 X,Y 데이터셋에서 a,b에 따라 손실함수의 값을 그려보면, 아래과 같은 convex함수가 됩니다.
이 관점에서 linear regression은 아래와 같은 손실함수의 argmin(최소값이 되는 a,b)값을 찾는 컨벡스 최족화 문제로 볼 수 있습니다.
최적화 문제의 해를 구하는 방법은 어떤 것들이 있을까?

위와같은 f(x)가 x축과 만나는 지점을 찾는 문제라고 생각해보면,
x_n값이 f(x) = 0인 점으로 수렴한다는 사실이 증명되어있습니다.
이렇게 점진적으로, 근사적인 해를 찾는 방법을 수치적 해법이라고 합니다.
결과가 근사값으로 나오고, 여러 단계를 거쳐야해 시간이 많이 ㅍ리요한 경우가 많습니다. 대신 좀더 일반적으로, 많은 경우에 사용이 가능합니다.
데이터 X,y가 다음과 같이 정의되고, MSE 손실함수를 사용하는 다중 선형회귀 분석의 경우,

다음과 같은 해석적 해법을 사용해 파라미터 θ를 구할 수 있습니다.

하지만 사실…중간에 들어가는 역행렬 구하는게 어려워서 이 부분만 수치적으로 풀기도 합니다.
직접적으로, 데이터의 값을 입력하는 것만으로 빠르고 간편하게 정확한 값을 구할 수 있지만, 미리 해법이 알려진 경우에만 사용할수 있어 사용 조건이 까다롭거나, 아예 쓸수 없는 경우도 많습니다.
한 변수가 변화할 때 다른 변수가 함께 변화하는 경향성을 보일 때 두 변수 사이의 관계를 상관관계라고 합니다.
한 변수의 변화가 원인이 되어 그 결과로서 다른 변수를 변화시킬 때, 두 변수 사이의 관계를 인과관계라고 합니다.
두변수 사이의 상관관계를 판단하기 위한 분석과정
상관 분석의 결과로, 두 변수 사이에 어느 정도로 강한 선형상관관계가 있는지를 -1에서 1범위의 숫자로 나타낸 것입니다.
두 변수 사이의 상관관계가 선형적인가? 오른쪽과 같은 데이터는 매우 강한 비선형적 상관관계가 있지만, 단순선형 회귀모델로 분석하면 0에 가까운 상관계수가 나옵니다.
모든 입력범수의 범위에 대해 잔차의 분산이 동일해야 한다는 가정.
반의어 : 이분산성
각 변수는 모드 정규분포를 따라야합니다.
각 샘플들은 모두 독립적으로 추출 되었어야 했습니다.
입력 피쳐에 포함된 모든 변수 쌍의 조합에 대한 상관계수를 행렬의 형태로 나타낸 것입니다. 계산 결과는 대칭행렬로 나오지만, 일반적으로 의미가 없는 중복값과 대각선 원소를 제거한 후, 다음과 같은 하삼각행렬의 형태로 시각화 합니다.
상관행렬을 시각화했을 때 오른쪽과 같이 몇몇 변수들간의 상관계수가 1.0이나 -1.0으로 나타나는 경우가 있는데, 이런 경우 두 변수 사이에 공선성이 있다고 표현 합니다.
비슷하게 다중공선성은 한 변수가 여러 변수들의 선형결합으로 나타나는
경우를 의미한다.
이러한 경우 공선성, 또는 다중공선성이 나타나지 않을 때까지
변수를 제거하는 방식의 전처리를 진행한다.
상관계수는 상관관계의 강도를 나타낸 것이므로, 회귀 직선의 기울기가 변해도, 그 부호가 바뀌지 않는 한 값이 변하지 않습니다.
반면 회귀분석의 결과로 나오는 회귀계수(결정계수)는, 직선의 기울기 값 그 자체를 의미하므로 데이터의 기울기가 변하면 따라서 변화합니다.
참고로, 분석에 사용하는 변수들이 모두 평균 0, 표준편차 1인 표준정규분포를 따르는 경우에는, 상관계수와 회귀계수의 값이 일치하게 됩니다.