회귀분석 (Regression Analysis)

Yuno·2025년 5월 1일

데이터 사이언스

목록 보기
18/25

1️⃣ 회귀분석의 개념

  • 정의 : 하나의 독립변수(X)종속변수(Y) 에 어떤 영향을 미치는지 분석하는 통계 기법
  • 목적
    • 두 변수 간의 관계(인과관계) 분석
    • 종속변수의 값 예측
  • 예시 : 식물의 성장량(종속변수) 은
    • 일조량(독립변수 1)
    • 비료량(독립변수 2)
    • 물 공급량(독립변수3) 등에 따라 결정될 수 있음

2️⃣ 회귀분석의 가정

가정의미
선형성독립변수(X) 와 종속변수(Y)의 관계가 선형이다
등분산성오차(잔차) 의 분산이 일정하다
독립성독립변수 간 서로 독립적(상관성X) 이다
정규성오차항(잔차) 이 정규분포를 따른다
  • 독립변수 간의 상관관계가 존재하면 다중공선성 문제 라고 하며, 회귀분석의 신뢰성을 낮추므로 반드시 피해야 함

3️⃣ 회귀분석의 종류

✨ 독립변수의 개수에 따른 분류

종류독립변수 개수예시
단순회귀분석독립변수 1개키(독립변수) 에 따른 몸무게(종속변수) 예측
다중회귀분석독립변수 2개 이상나이, 성별에 따른 소득 예측

✨ 독립변수와 종속변수의 관계 형태에 따른 분류

종류관계 형태예시
선형회귀분석독립변수 변화에 따라 종속변수가 일정 비율로 변화일조량 증가에 따른 식물 생장
비선형회귀분석비례하지 않는 관계 (곡선 형태)인구 증가율과 소비 증가율

4️⃣ 주요 용어 및 개념

✨ 선형 모델 (Linear Model)

  • 독립변수와 종속변수가 비례적 관계를 나타내는 모델

✨ 잔차 (Residual)

  • 관측값과 예측값의 차이 (실제값 - 예측값)
  • 잔차가 작을수록 좋은 회귀모델

✨ 최소제곱법 (Least Squares Method)

  • 목적 : 잔차(오차) 의 제곱합을 최소화하는 선(회귀선) 을 찾는 방법
  • 단순 합계 시 음수가 발생해 정확한 오차 계산이 어려워, 제곱하여 사용
  • 가장 널리 사용되는 방법

✨ 다중공선성 (Multicollinearity)

  • 독립변수들 사이에 상관관계가 높아 발생하는 문제
  • 예) 나이와 생년월일은 사실상 같은 의미(중복성 존재)
  • 다중공선성 문제 시 변수 제거 또는 수정이 필요

5️⃣ 회귀분석 결과 판단 기준

통계값설명
F-값회귀모형이 얼마나 유의미한지 판단
결정계수(R²)독립변수가 종속변수를 얼마나 잘 설명하는지 나타냄 (값이 클 수록 좋음)
t-값각 독립변수가 종속변수에 미치는 영향의 유의성을 판단
p-값유의확률 (0.05 미만 시 통계적으로 유의)

6️⃣ 로지스틱 회귀분석 (Logistic Regression)

  • 독립변수에 따라 종속변수가 범주형(0 또는 1) 데이터를 에측하는 분석
  • 사건 발생의 가능성을 예측 (예: 고객의 상품 구매 여부 예측)
  • 특징
    • 입력값(X) 은 무한한 범위
    • 출력값(Y) 은 0과 1로 제한 (분류 문제로 사용)
  • 예시
    • 합격 여부 예측
    • 제품 구매 여부 예측 등

7️⃣ 분석 진행 과정

  1. 가설 설정
  • 연구가설(H1) : 독립변수가 종속변수에 영향을 미친다
  • 귀무가설(H0) : 독립변수가 종속변수에 영향을 미치지 않는다
  1. 모형 설정 및 분석
  • 선형성, 정규성 등 가정 검토
  • 최소제곱법 등으로 모형 분석 진행
  1. 결과 해석
  • F-값, 결정계수(R²), t-값, p-값 등 통계값을 기준으로 가설 채택 여부 결정
  • 유의성을 판단하여 변수의 영향력을 확인하고 결과 보고
profile
Hello World

0개의 댓글