[세션] 통계 회귀분석

yeji·2024년 11월 19일
0

Python

목록 보기
20/36

회귀분석

  • 독립변수(X)로 종속변수(Y)를 예측하는 분석 기법
    -독립변수 : 원인이 되는 변수, 설명변수
    -종속변수 : 결과가 되는 변수, 반응 변수

프로세스

  • 독립변수, 종속변수 설정
    독립변수와 종속변수를 정하고 귀무가설과 대립가설 설정

  • 데이터 경향성 확인
    독립변수와 종속변수 간 산점도 및 상관관계 분석을 통해 데이터 분포 확인

  • 정합성 검증 & 결과 해석
    회귀모델(회귀식)이 얼마나 설명력을 갖는지
    회귀모델이 통계적으로 유의한지
    독립변수와 종속변수 간 선형관계가 있는지

특징

  • 가장 많이 사용되어 다양한 분석 및 해석 방법 존재
  • 종속변수를 설명하기 위한 다양한 독립변수를 선택하고 실험할 수 있음
  • 기본 가정이 어긋나면 회귀분석을 사용할 수 없음
  • 비선형성 확인을 위한 적절한 방식이 존재하지 않음

종류

  • 선형회귀분석

  • 로지스틱회귀분석

결과 해석

  • R_squared(R², 결정계수) : 회귀모델 설명력 확인
    결정계수 : 종속변수와 독립변수의 관계를 나타내는 수치로 전체 오류 중 회귀를 함으로써 얼마나 개선되었는가를 의미함, 0과 1사이의 값을 가지며 1에 가까울수록 모델의 성능이 좋음
  • F검정 : p-value로 통계적 유의성 판단
  • t검정 : p-value로 독립변수와 종속변수 간 선형관계 판단
  • OLS(Ordinary Least Squares) : 선형회귀모델의 결과를 나타내는 결과표, summary 함수를 통해 결과 확인
    Dep. Variable : 종속 변수, 회귀분석에서 설명하고자 하는 변수
    -R-squared : 결정계수, 회귀 모델이 종속 변수의 변동성을 얼마나 설명하는지
    -F-statistic : 회귀 모형의 전체 유의성을 검정하는 F-통계량, 값이 클수록 모형이 유의미할 가능성이 높음
    -Prob (F-statistic) : F-통계량의 p-값, 이 값이 매우 작으면 (예: 0.05 이하) 대립가설을 채택할 수 있음, 0에 가까울수록 회귀 모형이 통계적으로 유의미함
    -coef const : 상수항(절편), 독립변수가 0일 때 종속 변수의 예측값
    -coef x1 : 설명 변수 x1의 회귀 계수.
    -std err(Standard Error) : 회귀 계수 추정치의 표준 오차
    -t (t-statistic) : 회귀 계수가 0인지 검정하는 t-값, 절대값이 클수록 해당 계수가 유의미할 가능성이 높음
    -P>|t| (P-value) : 각 계수에 대한 p-값, 일반적으로 0.05보다 작으면 해당 계수는 유의미하다고 판단
    -[0.025 0.975](Confidence Interval) : 회귀 계수에 대한 95% 신뢰구간
profile
👋🏻

0개의 댓글