단순 회귀 분석

dkdiek·2024년 11월 2일

데이터분석

목록 보기
10/14

두 변수의 선형관계를 나타내는 상관관계와 달리, 회귀 분석은 최적의 변수를 구하고 변수 하나를 다른 변수의 기반으로 추정합니다.

  • 독립 변수(원인 변수)를 통해 종속 변수(결과 변수)를 추정

회귀 분석은 둘 이상의 변수 사이에 어떠한 관계가 있는지를 보여 주는 통계 기법이다. 원인 변수를 사용하여 결과 변수를 예측하도록 돕는 적절한 관계식을 구하는 분석 방법이다. 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과관계의 모델링 등의 통계적 예측에 이용.

활용 예시

  • 종속 변수의 유의미한 변동이나 분산을 설명하기 위해 종속 변수와 관계 있는 독립 변수들 중 각각의 독립 변수가 얼마나 영향을 가지고 있는지 설명할 때
  • 강한 관련성을 가지고 있는 독립 변수가 그와 관련된 종속 변수를 어느 정도 설명하고 있는지 결정할 때
  • 독립 변수와 종속 변수들 간의 관련성을 수학적 방정식으로 파악할 때
  • 종속 변수의 미래 가치를 예측할 때
  • 특별한 변수 혹은 변수들의 집합에 대한 기여도를 평가하는 데 있어, 다른 독립 변수들을 통제하려고 할 때
  • 실험 결과에 영향을 미칠지도 모르는 다른 변수들의 값을 일정한 수준으로 유지해 독립 변수와 종속 변수 간의 관계를 명확하게 파악할 때

분석 조건

공변성

변수 두 가지가 함께 움직이는 경향을 보여야 한다는 것. A의 변화할 때 B도 함께 변화해야 한다.
A가 변함에도 B가 변함이 없거나, A가 변함이 없는데 B가 갑자기 변하는 것은 인과관계가 있다고 추측이 어렵다. 공변성이 드러난다면 인과관계를 가정할 수 있다.

선후관계

시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 한다. 먼저 변화한 쪽이 원인 나중에 변화한 쪽이 결과라고 추측할 수 있다. 서로가 서로에게 원인이면서 결과인 관계도 많다.

비허위성

두 변수가 공변하고 시간적 선후관계가 존재함에 더하여, 이러한 변화의 양상이 제3의 다른 변수로는 설명될 수 없어야 한다는 것입니다. 즉, 다른 외생 변수가 섞여 들어와 거짓 인과관계를 형성했다는 대안적 설명이 불가해야 한다. 실험에서 변수의 허위관계를 방지하기 위해 변수 통제에 많은 신경을 쓴다.

단순 회귀 분석

하나의 종속 변수에 대해 독립 변수가 하나인 경우를 단순 회귀 분석이라고한다. 독립 변수가 둘 이상이면 다중 회귀 분석이다. 단순 회귀 분석은 독립 변수 X가 종속 변수 Y에 미치는 영향을 회귀식으로 분석하는 방법이다.


위 예시에서 결정계수를 통해 1인당 GDP의 변화량이 행복 점수의 변화로 설명할 수 있는 정도가 약 62%임을 확인 가능하다. 결정계수는 0에서 1사이의 값으로 크기가 클수록 신뢰성이 높다.

회귀계수

단순 회귀 분석에서 회귀계수는 주어진 자료를 가장 잘 표현하는 베타제로 Y 절편과 베타원 기울기이다.
실제 데이터에서 독립 변수에 따라 종속 변수의 변화하는 정도가 완벽한 선형이 아니다. 측청치에 따라서 차이가 발생할 수 있으며, 실제 출력 변수와 예측한 출력 변수의 차이를 잔차라고 한다.
잔차는 회귀 분석의 통계적 유의성을 확인하는 좋은 방법이다.
잔차는 각 자료가 직선에 얼마나 잘 맞는지 확인하는 도구이다. 스캐터 차트의 점과 선의 거리의 절대값이 0에 가까울수록 알맞는 것이다.

잔차

  • 잔차의 합은 항상 0으로 모든 편차의 합은 0과 같은 개념.
  • 분산을 구할 때 편차를 제곱해서 사용하는 것과 같은 원리로 최소제곱법 계산에도 잔차를 제곱해서 사용.
  • 자료와 평균의 차이를 구해 더하면 평균의 정의로 인해 잔차의 합은 반드시 0이 된다. 잔차를 제곱하여 0보다 큰 수로 만든 후 이 값을 누적한 합으로 사용한다.
  • 잔차를 관측값 순서로 산점도를 그리면 어떤 패턴도 나타나지 않아야 한다. 잔차는 실제 Y값이 직선으로 표현되는 Y값에서 얼마나 떨어져 있는지를 알려 주는 값으로, 각 잔차는 세로 실선으로 나타나기 때문.

최소제곱법

최소제곱법은 회귀식의 베타제로(Y 절편)와 베타원(기울기)의 값을 추정하는 방법 중 하나다.
측청치들을 모두 만족하는 회귀선이 존재할 확률은 매우 낮다. 측청치와 가장 차이가 적게 나는, 잔차가 가장 적은 회귀선을 구하는 것이 최선. 만약 측청치와 회구선에 따른 추정 값의 차이를 그냥 더하면 음수와 양수의 상쇄가 일어나기 때문에 제곱하여 더한 최소 값을 구한다.

0개의 댓글