미완 정규성 가정

Hyunjun Kim·2일 전

통계학기초

목록 보기
24/24

정규성 가정

정규성 가정은 “데이터나 오차가 정규분포를 따라야 한다”는 전제를 말합니다.
다만 이 말은 모델마다 의미가 조금 다릅니다. 로지스틱 회귀에서는 선형회귀에서처럼 종속변수 자체나 오차항이 정규분포를 따른다고 가정하지 않습니다.

핵심부터 말하면, 로지스틱 회귀는 종속변수가 보통 0/1의 이항형 변수이기 때문에 애초에 정규분포를 따를 수 없습니다. 대신 로지스틱 회귀는 다음을 가정합니다.
1. 결과변수 Y가 이항분포를 따른다.
2. 설명변수들의 선형결합이 log-odds에 선형적으로 들어간다.
3. 관측치들은 서로 독립적이다.
4. 설명변수들 사이에 심한 다중공선성이 없어야 한다.

즉, 로지스틱 회귀는 “정규성”이 아니라 이항분포와 로그오즈의 선형성을 기반으로 합니다.

정규성 가정이 정확히 뭔가

정규성 가정은 보통 다음 중 하나를 뜻합니다.

1) 변수 자체가 정규분포를 따른다

예를 들어 어떤 통계 기법은 입력 데이터가 정규분포에 가깝다고 가정합니다.

2) 오차항이 정규분포를 따른다

선형회귀에서 더 중요한 가정입니다.

선형회귀는 보통 이렇게 씁니다.

Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \varepsilon

여기서 \varepsilon \sim N(0,\sigma^2) 같은 정규성 가정을 둡니다.
이 가정이 있어야 t검정, F검정, 신뢰구간 같은 전통적 추론이 깔끔해집니다.

왜 로지스틱 회귀는 정규성이 필요 없나

로지스틱 회귀는 오차를 정규분포로 두지 않습니다.
대신 확률을 직접 모델링합니다.

p(X) = P(Y=1 \mid X)

그리고 이 확률을 logit 변환한 값이 설명변수의 선형결합이라고 둡니다.

\log \frac{p(X)}{1-p(X)} = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p

즉, 로지스틱 회귀의 본체는 “정규오차 모델”이 아니라 “확률 모델”입니다.

종속변수가 0/1이면 오차항도 선형회귀처럼 대칭적인 정규분포 형태로 놓기 어렵습니다.
그래서 정규성 가정을 쓰는 쪽이 오히려 부자연스럽습니다.

선형회귀와 비교하면 더 명확함

선형회귀
• 연속형 종속변수
• 오차항이 정규분포라고 가정하는 경우가 많음
• 예측값 자체가 실수 전체 범위를 가짐

로지스틱 회귀
• 종속변수는 0/1
• 확률을 모델링함
• 오차항 정규성 가정 없음
• 출력은 항상 0과 1 사이

즉, 로지스틱 회귀는 데이터 구조 자체가 다르기 때문에 선형회귀의 정규성 가정을 그대로 가져오지 않습니다.

그렇다고 아무 가정도 없는 건 아님

정규성이 필요 없다고 해서 로지스틱 회귀가 무가정 모델은 아닙니다.
대신 다음이 중요합니다.

1) 독립성

각 관측치는 서로 독립이라는 전제가 필요합니다.

2) 로그오즈의 선형성

설명변수와 결과의 관계가 확률 자체가 아니라, log-odds 스케일에서 선형이어야 합니다.

3) 표본 수

최대우도추정(MLE) 기반이라 충분한 표본이 있으면 추론이 안정적입니다.

4) 이상치와 완전분리

로지스틱 회귀는 정규성보다 오히려 완전분리(separation), 희소한 클래스, 이상치, 다중공선성에 더 민감할 수 있습니다.

왜 “확률기반 모델류는 정규성 가정이 필요 없다”고 말하나

이 표현은 엄밀히 말하면 조금 거칠지만, 교육 현장에서는 보통 다음 뜻입니다.
• 회귀계수가 정규분포를 따라야 한다는 뜻이 아님
• 종속변수나 오차항이 정규분포여야 한다는 뜻이 아님
• 분포 가정 대신 우도(likelihood) 를 직접 세우는 모델이라는 뜻

로지스틱 회귀는 이항분포를 가정하고 최대우도추정으로 계수를 추정합니다.
따라서 선형회귀처럼 “오차 정규성”에 의존하지 않습니다.

시험이나 면접에서 이렇게 답하면 좋음

“로지스틱 회귀는 종속변수가 0/1인 이항형 자료를 다루므로, 선형회귀처럼 오차항의 정규성을 가정하지 않는다. 대신 이항분포와 logit 링크를 사용해 성공확률의 로그오즈를 선형결합으로 모델링한다. 따라서 정규성보다 독립성, 로그오즈의 선형성, 다중공선성 여부가 더 중요하다.”

한 줄 요약

정규성 가정은 “데이터나 오차가 정규분포를 따라야 한다”는 뜻이고,
로지스틱 회귀는 정규오차를 전제로 하지 않는 이항분포 기반 확률모형이라서 그 가정이 필요 없습니다.

원하면 다음에는 선형회귀, 로지스틱 회귀, 포아송 회귀의 가정을 한 표로 비교해드리겠습니다.

profile
Data Analytics Engineer 가 되

0개의 댓글