정규성 가정
정규성 가정은 “데이터나 오차가 정규분포를 따라야 한다”는 전제를 말합니다.
다만 이 말은 모델마다 의미가 조금 다릅니다. 로지스틱 회귀에서는 선형회귀에서처럼 종속변수 자체나 오차항이 정규분포를 따른다고 가정하지 않습니다.
핵심부터 말하면, 로지스틱 회귀는 종속변수가 보통 0/1의 이항형 변수이기 때문에 애초에 정규분포를 따를 수 없습니다. 대신 로지스틱 회귀는 다음을 가정합니다.
1. 결과변수 Y가 이항분포를 따른다.
2. 설명변수들의 선형결합이 log-odds에 선형적으로 들어간다.
3. 관측치들은 서로 독립적이다.
4. 설명변수들 사이에 심한 다중공선성이 없어야 한다.
즉, 로지스틱 회귀는 “정규성”이 아니라 이항분포와 로그오즈의 선형성을 기반으로 합니다.
⸻
정규성 가정이 정확히 뭔가
정규성 가정은 보통 다음 중 하나를 뜻합니다.
1) 변수 자체가 정규분포를 따른다
예를 들어 어떤 통계 기법은 입력 데이터가 정규분포에 가깝다고 가정합니다.
2) 오차항이 정규분포를 따른다
선형회귀에서 더 중요한 가정입니다.
선형회귀는 보통 이렇게 씁니다.
Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \varepsilon
여기서 \varepsilon \sim N(0,\sigma^2) 같은 정규성 가정을 둡니다.
이 가정이 있어야 t검정, F검정, 신뢰구간 같은 전통적 추론이 깔끔해집니다.
⸻
왜 로지스틱 회귀는 정규성이 필요 없나
로지스틱 회귀는 오차를 정규분포로 두지 않습니다.
대신 확률을 직접 모델링합니다.
p(X) = P(Y=1 \mid X)
그리고 이 확률을 logit 변환한 값이 설명변수의 선형결합이라고 둡니다.
\log \frac{p(X)}{1-p(X)} = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p
즉, 로지스틱 회귀의 본체는 “정규오차 모델”이 아니라 “확률 모델”입니다.
종속변수가 0/1이면 오차항도 선형회귀처럼 대칭적인 정규분포 형태로 놓기 어렵습니다.
그래서 정규성 가정을 쓰는 쪽이 오히려 부자연스럽습니다.
⸻
선형회귀와 비교하면 더 명확함
선형회귀
• 연속형 종속변수
• 오차항이 정규분포라고 가정하는 경우가 많음
• 예측값 자체가 실수 전체 범위를 가짐
로지스틱 회귀
• 종속변수는 0/1
• 확률을 모델링함
• 오차항 정규성 가정 없음
• 출력은 항상 0과 1 사이
즉, 로지스틱 회귀는 데이터 구조 자체가 다르기 때문에 선형회귀의 정규성 가정을 그대로 가져오지 않습니다.
⸻
그렇다고 아무 가정도 없는 건 아님
정규성이 필요 없다고 해서 로지스틱 회귀가 무가정 모델은 아닙니다.
대신 다음이 중요합니다.
1) 독립성
각 관측치는 서로 독립이라는 전제가 필요합니다.
2) 로그오즈의 선형성
설명변수와 결과의 관계가 확률 자체가 아니라, log-odds 스케일에서 선형이어야 합니다.
3) 표본 수
최대우도추정(MLE) 기반이라 충분한 표본이 있으면 추론이 안정적입니다.
4) 이상치와 완전분리
로지스틱 회귀는 정규성보다 오히려 완전분리(separation), 희소한 클래스, 이상치, 다중공선성에 더 민감할 수 있습니다.
⸻
왜 “확률기반 모델류는 정규성 가정이 필요 없다”고 말하나
이 표현은 엄밀히 말하면 조금 거칠지만, 교육 현장에서는 보통 다음 뜻입니다.
• 회귀계수가 정규분포를 따라야 한다는 뜻이 아님
• 종속변수나 오차항이 정규분포여야 한다는 뜻이 아님
• 분포 가정 대신 우도(likelihood) 를 직접 세우는 모델이라는 뜻
로지스틱 회귀는 이항분포를 가정하고 최대우도추정으로 계수를 추정합니다.
따라서 선형회귀처럼 “오차 정규성”에 의존하지 않습니다.
⸻
시험이나 면접에서 이렇게 답하면 좋음
“로지스틱 회귀는 종속변수가 0/1인 이항형 자료를 다루므로, 선형회귀처럼 오차항의 정규성을 가정하지 않는다. 대신 이항분포와 logit 링크를 사용해 성공확률의 로그오즈를 선형결합으로 모델링한다. 따라서 정규성보다 독립성, 로그오즈의 선형성, 다중공선성 여부가 더 중요하다.”
⸻
한 줄 요약
정규성 가정은 “데이터나 오차가 정규분포를 따라야 한다”는 뜻이고,
로지스틱 회귀는 정규오차를 전제로 하지 않는 이항분포 기반 확률모형이라서 그 가정이 필요 없습니다.
원하면 다음에는 선형회귀, 로지스틱 회귀, 포아송 회귀의 가정을 한 표로 비교해드리겠습니다.