[MLstudy] 회귀분석 (1) - Q&A

juyeon lee·2023년 3월 4일

MLstudy

목록 보기
1/8
post-thumbnail

주 2회 ML & DL Study & Q&A 피드백 진행
해당 포스트
📗 회귀분석
스터디원🙎‍♀️ @dbswls6685

2023-02-20 1회차

❓ 질문 1

Q. 설명(독립)변수들 사이에 선형 관계가 존재할 경우, 이는 어떻게 해결하는가? 그 예시는?

A. 다중공선성이 발생한 문제인데, 이는 다른 독립변수에 의존하는 변수를 제거하여 해결할 수 있다.
혹은 규제를 통해 해결 가능하다. 규제란, 모델의 가중치를 제한하여 차수를 감소시킨다는 뜻이다. L1과 L2 규제 존재 / 규제 회귀분석에는 릿지, 라쏘, 엘라스틱넷이 있다.

❓ 질문 2

Q. 질문 1과 같은 상황에서 관계가 있는 독립변수 중 하나를 빼고 분석해도 되는가?

A. 상관 관계가 강한 설명변수 하나 혹은 일부를 제거하는 방법을 사용할 수는 있으나, 변수 누락으로 인해 다른 문제가 발생할 가능성이 있다. 따라서 모형에 중요한 변수를 제거하는 것은 바람직한 방법은 아니다.

❓ 질문 3

Q. 다중공선성(multicollinearity)이란?

A.

다중 회귀분석에서 독립(설명)변수들 사이에서 선형관계가 발생하여 회귀계수 추정에 부정적인 영향을 미치는 현상이다. 다중공선성 발생 시, 표준오차가 비정상적으로 커지게 되어 회귀계수에 대한 해석이 불가능해진다.
결정계수의 값이 높지만 독립변수의 p-value가 커서 유의하지 않다는 결론이 나오면 다중공선성을 의심해 볼 수 있다.

다중공선성을 확인하는 방법에는 4가지가 있다.

  • 두 설명(독립)변수의 산포도와 상관관계를 확인한다. 상관계수가 0.9 이상이면 다중공선성이 존재한다고 할 수 있다.

  • 공차(tolerance) 즉, 허용 범위오차를 확인한다. 공차는 1R21-R^2 만약 R2R^2 이 1이면 설명변수 간 강한 상관관계가 있다는 걸 의미하며, 공차는 0이 된다. 공차가 0이면 완벽한 상관성을 의미하며 다중공선성이 심각한 상태이다.

  • 분산팽창지수 (VIF) 확인, 이 지수가 클수록 다중공선성이 크다는 의미를 가진다. 일반족으로 10보다 크면 문제가 있다고 판단한다.

  • 상태지수(CI)가 클수록 존재한다고 볼 수 있으며 100 이상이면 다중공선성이 심각하다고 판단한다.

❓ 질문 4

Q. 선형회귀분석과 로지스틱 회귀분석의 x,y값 범위의 차이점

A.

선형 회귀분석은 x,y 모두 [ -∞ , ∞ ]
로지스틱 회귀분석은 x는 [ -∞ , ∞ ], y값이 확률값이기 때문에 [ 0,1 ]
따라서, 로지스틱은 두 값의 범위가 다르기 때문에 변환이 필요

❓ 질문 5

Q. 선형회귀분석과 로지스틱 회귀분석의 분포 차이점

A. 선형회귀분석은 정규분포 형태를, 로지스틱은 이항분포를 따른다.
선형회귀는 잔차항이 정규분포의 형태를 가져야한다는 '정규성' 가정이 존재한다.

0개의 댓글