[통계 기초] 1119 session

Hyunjun Kim·2024년 11월 19일

통계학기초

목록 보기
6/24

통계야 놀자 4회차: 회귀분석

1. 회귀분석이란?

회귀분석은 독립변수와 종속변수 간의 관계를 수치화하여 예측 및 분석에 활용하는 통계 기법이다. 예를 들어, 게임 시간(x)과 전기세(y)의 관계를 분석한다고 가정하자. 게임 시간은 원인이므로 독립변수이고, 전기세는 결과이므로 종속변수가 된다.

회귀분석의 목적은 추세선(trend line)을 찾는 것이다. 추세선은 기존 데이터들을 가장 잘 설명해주는 선을 의미한다.

  • x: 게임시간 (독립변수, 설명변수)
  • y: 전기세 (종속변수, 반응변수)
  • a: 절편 (x=0일 때 y 값)
  • b: 기울기

회귀식: y = a + bx

분석 절차는 일반적으로 3단계로 진행된다.

  1. 독립변수와 종속변수 설정
  2. 데이터 경향성 확인
  3. 정합성 검증 & 결과 해석
    • 회귀 모델의 설명력 확인
    • 회귀 모델의 통계적 유의성 검증
    • 독립변수와 종속변수 간 선형관계 확인

회귀분석에서도 결과가 유의미한지 반드시 검증해야 한다.


2. 회귀분석의 특징과 종류

장점

  • 친밀성: 예측 및 추천에서 널리 사용된다. 다양한 해석 및 분석 방법 존재
  • 유용성: 결과에 대한 근거와 활용 방안 제공
  • 유연성: 종속변수 설명을 위해 다양한 독립변수 선택 가능

단점

  • 복잡성: 기본 가정이 충족되지 않으면 적용 불가
  • 한계성: 비선형성 확인 방법 제한

2.1 선형회귀분석

  • 독립변수: 연속형
  • 종속변수: 연속형
  • 분석 목적: 예측
  • 분석 방법: 선형방정식으로 함수식 표현

종류:

  1. 단순회귀: 독립변수 1개, 종속변수 1개
    • 예: 공부시간 → 시험 점수, 치킨 판매량 → 맥주 판매량
  2. 다중회귀: 독립변수 2개 이상, 종속변수 1개
    • 예: 주택 면적, 방 개수, 욕실 개수 → 주택 가격

2.2 로지스틱 회귀분석

  • 독립변수: 연속형 또는 범주형
  • 종속변수: 범주형 (이진형 또는 순서 없는 범주형)
  • 분석 목적: 분류 및 예측
  • 분석 방법: 연결함수를 사용한 함수식 표현

종류:

  1. 이진 로지스틱 회귀: 종속변수 2개 범주
    • 예: 공부시간 → 시험 합격 여부
  2. 다중 로지스틱 회귀: 종속변수 3개 이상 범주
    • 예: 서비스 응답 시간 → 고객 만족도

현업에서는 분석한 모델을 저장하여, 새로운 데이터가 들어왔을 때 모델만 불러와 결과를 재현할 수 있도록 한다.


3. 정합성 검증 & 결과 해석

3.1 회귀모델 설명력 확인

결정계수 R²를 통해 회귀모델의 설명력을 평가한다.

  • T (Total): 전체 변동
  • R (Regression): 회귀로 설명 가능한 변동
  • E (Error): 회귀로 설명 불가한 잔차 변동

설명력(R²) = 회귀를 통해 전체 변동이 얼마나 개선되었는지 나타내는 값


3.2 통계적 유의성 검증

F-검정을 수행하여 회귀식의 통계적 타당성을 평가한다.

  • 귀무가설(H0): 회귀모델은 타당하지 않다 (모든 회귀계수 0)
  • 대립가설(H1): 회귀모델은 타당하다 (적어도 하나의 회귀계수 ≠ 0)

p-value로 유의성 판단:

  • p-value < 0.05 → 대립가설 채택, 회귀모델 통계적으로 유의함

3.3 독립변수와 종속변수 선형관계 확인

회귀식의 기울기에 대해 t-검정을 시행한다.

  • 귀무가설(H0): 독립변수와 종속변수 간 선형관계 없음
  • 대립가설(H1): 독립변수와 종속변수 간 선형관계 존재

3.4 OLS(Ordinary Least Squares) 해석

OLS는 선형회귀 결과표이다. 주요 항목:

  1. Dep. Variable (y): 종속변수
  2. R-squared: 결정계수, 회귀 모델 설명력
  3. Adj. R-squared: 수정 결정계수
  4. F-statistic: 모델 전체 유의성
  5. Prob (F-statistic): F-검정 p-value
  6. 기타 회귀계수, 표준오차, t-값 등
profile
Data Analytics Engineer 가 되

0개의 댓글