두 변수의 선형관계를 나타내는 상관관계와 달리, 회귀 분석은 최적의 변수를 구하고 변수 하나를 다른 변수의 기반으로 추정합니다.
회귀 분석은 둘 이상의 변수 사이에 어떠한 관계가 있는지를 보여 주는 통계 기법이다. 원인 변수를 사용하여 결과 변수를 예측하도록 돕는 적절한 관계식을 구하는 분석 방법이다. 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과관계의 모델링 등의 통계적 예측에 이용.
변수 두 가지가 함께 움직이는 경향을 보여야 한다는 것. A의 변화할 때 B도 함께 변화해야 한다.
A가 변함에도 B가 변함이 없거나, A가 변함이 없는데 B가 갑자기 변하는 것은 인과관계가 있다고 추측이 어렵다. 공변성이 드러난다면 인과관계를 가정할 수 있다.
시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 한다. 먼저 변화한 쪽이 원인 나중에 변화한 쪽이 결과라고 추측할 수 있다. 서로가 서로에게 원인이면서 결과인 관계도 많다.
두 변수가 공변하고 시간적 선후관계가 존재함에 더하여, 이러한 변화의 양상이 제3의 다른 변수로는 설명될 수 없어야 한다는 것입니다. 즉, 다른 외생 변수가 섞여 들어와 거짓 인과관계를 형성했다는 대안적 설명이 불가해야 한다. 실험에서 변수의 허위관계를 방지하기 위해 변수 통제에 많은 신경을 쓴다.
하나의 종속 변수에 대해 독립 변수가 하나인 경우를 단순 회귀 분석이라고한다. 독립 변수가 둘 이상이면 다중 회귀 분석이다. 단순 회귀 분석은 독립 변수 X가 종속 변수 Y에 미치는 영향을 회귀식으로 분석하는 방법이다.

위 예시에서 결정계수를 통해 1인당 GDP의 변화량이 행복 점수의 변화로 설명할 수 있는 정도가 약 62%임을 확인 가능하다. 결정계수는 0에서 1사이의 값으로 크기가 클수록 신뢰성이 높다.
단순 회귀 분석에서 회귀계수는 주어진 자료를 가장 잘 표현하는 베타제로 Y 절편과 베타원 기울기이다.
실제 데이터에서 독립 변수에 따라 종속 변수의 변화하는 정도가 완벽한 선형이 아니다. 측청치에 따라서 차이가 발생할 수 있으며, 실제 출력 변수와 예측한 출력 변수의 차이를 잔차라고 한다.
잔차는 회귀 분석의 통계적 유의성을 확인하는 좋은 방법이다.
잔차는 각 자료가 직선에 얼마나 잘 맞는지 확인하는 도구이다. 스캐터 차트의 점과 선의 거리의 절대값이 0에 가까울수록 알맞는 것이다.
최소제곱법은 회귀식의 베타제로(Y 절편)와 베타원(기울기)의 값을 추정하는 방법 중 하나다.
측청치들을 모두 만족하는 회귀선이 존재할 확률은 매우 낮다. 측청치와 가장 차이가 적게 나는, 잔차가 가장 적은 회귀선을 구하는 것이 최선. 만약 측청치와 회구선에 따른 추정 값의 차이를 그냥 더하면 음수와 양수의 상쇄가 일어나기 때문에 제곱하여 더한 최소 값을 구한다.