[Adsp] 3-5. 회귀분석

Mini·2022년 8월 19일
0

ADsP

목록 보기
11/17

(1) 회귀분석

  • 하나 이상의 독립변수(x1, x2, ...)들이 종속 변수(y)에 얼마나 영향을 미치는지 추정하는 통계기법
  • 독립변수 : 원인변수 (설명변수), 종속변수 : 결과변수 (반응변수)
  • 독립 변수 하나 : 단순선형회귀분석, 2개 이상 : 다중선형회귀분석
  • 인과 관계에 의한 분석

(2) 회귀분석의 가정 (선형성, 독립성, 등분산성, 정규성)

  • 선형성 : 독립변수와 종속변수가 선형적
  • 독립성 : 단순 회귀분석에서 잔차와 독립변수의 값이 서로 독립이어야 함
    • 독립변수가 여러 개인 다중회귀분석의 경우에는 독립변수들 간에 상관성이 없이 독립이어야 함.
    • 만약 상관성이 독립변수간에 상관성이 존재하는 경우 (다중공선성) 이를 제거하고 회귀 분석 수행해야함.
  • 등분산성 : 분산이 같다. (잔차들이 고르게 분포)
    • 잔차의 중심에서 분산이 같아야 한다.
    • 등분산성 만족 못하는 경우 회귀선은 덩어리 모양
  • 정규성
    • 잔차항이 정규분포 형태를 띠는 것 : 정규성을 만족
  • 오차와 잔차
    • 오차 : 예측값과 실제 값의 차이
    • 잔차 : 모집단의 일부인 표본집단으로 회귀식 추정할 때, 표본집단에 의해 추정된 회귀식의 예측 값과 실제 값이 차이
    • 잔차도 : 예측 값과 실제 값의 차이를 나타낸 산점도
      • 예측값과 실제값의 차이가 없는 경우 : 잔차 0

(3) 단순선형회귀분석

  • 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 것
  • 두 변수의 관계가 선형적
  • 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾음
    • 최소 제곱법 : 실제 관측치와 추세선에 의해 예측된 점 사이의 거리, 즉 오차를 제곱해 더한 값을 최소화하는 것
  • SSE (오차제곱합) : 모형이 설명하지 못하는 부분
  • SSR (회귀제곱합) : 모형이 설명하는 부분
  • SST (총제곱합) : 전체 설명이 필요

(4) 회귀분석 모형의 적합성

  • 독립변수 1개 : 단순 회귀분석
    독립변수 2개 이상 : 다중회귀 분석

(5) 회귀모형의 통계적 유의성 검증

* F-검정 -> 분산의 차이를 확인할 때 사용
* 분산의 차이가 크다 -> 회귀모형에서 회귀 계수가 크다

  • F-통계량 (F값이 크다) 회귀계수가 크고 가파르다 -> 변수간에 유의미한 인과관계가 존재, 회귀 모형 통계적 유의성 확인 방법
  • F값이 크면 F값이 0에서 얼마나 가까운지 확률적으로 측정한 P값이 상대적으로 작아짐
    * T-검정 : 회귀계수의 유의성을 검정
    • T통계량이 크다는 것은 분모가 작다는 의미 -> 분모에 해당하는 표준오차가 작다
    • T-통계량이 크면 회귀계수도 커지고, 유의미한 인과관계가 검증 / P값 작아짐
    • anova 사용

(6) 모형의 설명력

  • 회귀 분석결과를 분산분석하고 도출된 설명계수 R^2로 모형의 설명력 판단
  • R^2이 1에 가깝다면 회귀 모형의 예측력이 높다는 것

(7) F값과 P값의 관계

  • Fvalue가 크다 = 집단 간 분산 차이 크다, 회귀 추세선이 가파르다, 기울기가 가파르다, 회귀계수가 양 혹은 음으로 크다, P값이 낮아진다.

(8) 다중선형회귀분석이란?

  • 독립변수가 2개 이상이고 종속변수가 하나일 떼 사용가능한 회귀 분석
  • 독립변수와 종속변수의 관계가 선형으로 표시

(9) 다중공선성

  • 진단

    • 다중공선성 : 독립 변수 간의 강한 상관 관계가 있는 것.

    • R^2이 커서 회귀식의 설명력은 높지만 각 독립변수의 P-value값이 커서 개별 인자가 유의하지 않은 경우 다중공선성 의심가능

    • 독립변수 간의 상관계수를 구하자

    • VIE (분산 팽창 요인)를 구해 10을 넘는다면 다중공선성이 있다고 판단 가능

      • VIE = 1 / (1-R^2) > 10 => 다중공선성 ㅇ
  • 해결법

    • 주성분분석(PCA)를 통해 변수의 차원을 축소 -> 원래 데이터가 가진 내제적 속성을 보존하면서 데이터를 축소하는 방법 사용
    • LDA 통해 차원 축소

(10) 최적 회귀방정식

  • 1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수 y를 가장 잘 설명할 수 있는 회귀식을 찾는 것
  • 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 선택하는 과정

(11) 변수 수행에 사용되는 성능지표

  • 벌점화 방식의 AIC와 BIC
    • 회귀 모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커짐
    • 변수가 많아 복잡해진 모형에 벌점을 줌
      • AIC : 아카이케 정보 기준
      • BIC : 베이즈 정보 기준
      • 멜로우

(12) 단계적 변수 선택법

  • 전진 선택법 : 모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄것으로 판단되는 변수부터 하나씩 추가하는 것.
  • 후진 선택법 : 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
  • 단계별 방법 : 전진선택법과 후진 제거법 보완

(13) 정규화 선형회귀

  • (1) 라쏘, L1규제
    • 절댓값의 합을 최소화하는 것 -> 회귀계수 절댓값이 클수록 강한 penalty 부여
    • 람다 값으로 penalty 정도 조정
    • 자동으로 변수를 선택하는 효과 있음
  • (2) 릿지, L2 규제
    • 가중치들의 제곱의 합을 최소화하는 것
  • (3) 엘라스틱넷 - 라쏘와 릿지를 결합

(14) 일반화 선형회귀

  • 로지스틱 회귀 -> 종속 변수가 범주형 변수 (0또는 1)인 경우로 의학 연구에 많이 사용
  • 포아송 회귀 -> 종속 변수가 특정 시간 동안 발생한 사건에 대한 도수자료인 경우이면서, 종속변수가 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우에 사용

(15) 더빈 왓슨 검정

  • 회귀 분석에 있어 이러한 자기상관성(오차항이 독립성을 만족하는지)이 존재하는지 검정하는 방법
  • 2에 가까울수록 자기상관
  • 0에 가깝다 -> 양의 상관관계
  • 4에 가깝다-> 음의 상관관계

0개의 댓글