Castro and Nunes(2014)의 데이터
를 사용종속 변수가 이진인 경우, OLS(Ordinary Least Squares) 모형의 몇 가지 가정(등분산성, 선형성, 정규성)이 위반되며, 이 경우 추정값이 일관성이 없을 수 있다. 가정이 위반될 경우에는 데이터의 특성에 더 적합한 기법을 채택해야 한다.
📌 이진 종속 변수를 다루는 데 가장 적합한 도구는 로지스틱 회귀이다. 즉, y가 두 가지 categories만 취할 수 있을 때, 로지스틱 회귀가 적합하다.
e.g. 당선 또는 낙선, 정책 채택 또는 미채택, 투표 하거나 하지 않은 경우 등
방법론적으로, Castro and Nunes(2014)
의 데이터 를 재현하여 2006년 브라질 연방 하원의원 선거에 출마한 후보들의 부패 스캔들 관련 참여와 재선 가능성 간의 관계를 분석한다.
마지막에는, 독자들은 이해할 수 있다:
논문의 나머지 부분의 구성:
로지스틱 회귀에서 종속 변수는 두 가지 범주만 가진다. 일반적으로 사건의 발생은 1로, 발생하지 않음은 0으로 코딩된다. 코딩 방식에 따라 계수의 signal이 변경되며, 실질적인 해석도 달라진다. 로지스틱 회귀가 어떻게 작동하는지를 이해하기 위해서는 회귀 분석의 논리를 전반적으로 이해해야 한다.
선형 모형의 고전적인 표기법을 살펴보면:
Y
는 종속 변수이며, 우리가 이해/설명/예측하려는 대상이다. X
는 독립 변수이다. 기술적으로, 종속 변수와 여러 독립 변수 간의 선형 관계를 추정할 수 있다. 또한, 이 모델은 효과의 크기를 관찰하고 계수의 통계적 유의성(p-value 및 신뢰 구간)을 검정(test)할 수 있다.
로지스틱 회귀는 종속 변수가 이진인 일반화 선형 모형(GLM)의 특별한 경우로 해석할 수 있다.
Linear regression line versus logistic curve
로지스틱 모델에서 종속 변수가 두 값(0, 1)만 취하므로, 모델이 예측하는 확률도 해당 구간에 제한되어야 한다. X(독립 변수)가 낮은 값을 가질 경우, 확률은 0에 가까워지고, X가 증가함에 따라 확률은 1에 가까워진다. 종속 변수의 이진적 특성은 선형 모델의 몇 가지 가정(등분산성, 선형성, 정규성)을 위반하므로, 이진 변수를 분석하는 데 선형모델을 사용하는 것은 비효율적이고 편형된 계수를 초래할 수 있다.
Age x coronary disease
수직 점선은 평균 나이(44.38), 사례는 1(관상 동맥 질환 발생) 0(발생하지 않음)으로 코딩되었다. 나이가 증가함에 따라 관상 동맥 질환 진단을 받은 사람의 수가 증가한다.
나이와 심장 질환 발생 확률간의 positive correlation을 확인할 수 있다.
로지스틱 회귀는 이 관계의 방향, 크기 및 통계적 유의성 수준을 알려준다.
e.g. 건강 연구 : 생존/사망, 아픔/건강, 흡연자/비흡연자
보통은 연속형(continuous) 또는 이산형(discrete) 변수를 범주형으로 recoded하는 것을 포기해야 한다. 기술적으로, 수량형 변수를 범주형으로 재코딩하는 것은 정보 손실을 의미하며, 이는 추정치의 일관성을 감소시킨다.
e.g. 소득을 재코딩하여 두 가지 범주인 부유한 사람과 가난한 사람으로 나누는 것은 잘못 나눈 것
📌 다중 공선성
독립 변수 간 높은 상관관계
로지스틱 회귀에서는 샘플 크기가 핵심이다. 작은 샘플은 추정치가 일관성이 없어지고, 지나치게 크면 모든 효과가 통계적으로 유의미해진다. 독립 변수 중 하나를 단순히 제거해서는 안되고, 관측치 수를 늘리거나 데이터 축소 기술을 사용한다.
⇒ 최소 400개의 사례가 필요하고, 독립 변수당 10개의 사례 비율, 초정된 매개변수에 대해 30개의 사례 비율을 추천한다.
📌 이상치(outliers)
극단적인 사례는 데이터 분석에서 재앙적인 결과를 초래하므로, 아래의 방법이 있다.
⇒ 필수적인 절차
comparing the fit of logistic models
위의 그림은 로지스틱 회귀를 사용할 때 모델 비교의 기본 논리를 보여준다. 비교적 모델 B는 모델 A보다 더 나은 적합도를 가지는데, 이는 판별럭의 차이(discriminatory power)로 관찰할 수 있다.
가장 단순한 모델(상수만 포함)은 예측 변수가 없어서 성능이 낮고, 복잡한 모델은 모든 예측 변수와 상호작용까지 포함해 성능이 좋을 수 있지만 항상 그런 것은 않으니 다양한 모델을 만들어 어떤 모델이 데이터를 잘 설명하는지를 확인해봐야 한다.
📌 연구자는 적합도 검정을 사용하여 가장 적은 수의 예측 변수를 사용해 가장 예측을 잘 수행하는 모델을 선택한다.
📌 통계적 유의성 뿐만 아니라 계수의 해석도 중요하다.
다만, 계수가 직접적으로 사건의 발생 확률을 보여주지 않기 때문에, 계수가 쉽게 해석되는 선형 회귀와 달리 로지스틱 모델에서 생성된 추정치는 덜 직관적이다.
로그 오즈
의 변화를 기반으로 하기 때문에 계수의 변화가 사건의 확률에 미치는 영향을 이해하는 데 추가적인 계산이 필요 e.g. 계수 0.6 X값 1증가 → Y의 로그 값이 0.6증가⇒ 로그 값이 0.6 증가했다는것은 직관적이지 않고 변수 간의 관계를 이해하기 어렵다.
📌 계수 자체의 지수를 구해 독립 변수가 Y의 오즈에 미치는 영향을 분석한다
0.6의 지수는 1.82이다. (e^0.6) → x가 1단위 증가 시 y가 발생할 확률이 1.82배 증가한다는 의미(다른변수는 일정하게 유지)한다.
Exponential function
로지스틱 회귀에서 1보다 큰 계수를 넣으면 양수의 지수를 생성하고, 음수 계수는 exp가 1보다 작은 값을 반환한다. 값이 0이면 영향을 미치지 않는다.
⏩ 계수가 1에서 멀어질수록 방향에 관계없이 특정 독립 변수가 관심 있는 사건 발생 확률에 미치는 영향이 커진다.
📌 Y 발생 확률의 백분율 증가 추정
(지수화된 회귀 계수 (1.82) - 1 )*100
→ x의 1단위 증가는 Y발생 확률을 82% 증가시킨다.
로지스틱 회귀 계수의 해석은 계수(β)가 음수인 경우 복잡한데(exp값이 1보다 작아 독립 변수가 증가할 때 종속 변수가 발생할 확률이 감소하는 것을 나타내기 때문) 계수를 반전시켜 (1/계수의 값)으로 해석을 하면 쉽게 해석이 가능하다. (1단위 감소할 때, 1.56배 증가한다)
📌 원본 데이터셋의 하위 샘플을 사용하여 관찰 결과를 검증
특히 작은 샘플로 작업할 때 연구 결과의 신뢰성을 높인다.
2006년에 재선된 후보자에게 1값을 부여, 그렇지 않은 경우 0을 부여할 종속 변수를 식별하기
로지스틱 회귀를 추정하기 위한 기술적 요건 확인하기
모델의 추정
변수들이 어떻게 측정되었는지 요약
세 가지 가설 검증
H1 : 부패 스캔들에 연루되는 것은 재선 확률을 줄인다.
H2 : 캠페인 지출이 높을수록 재선 확률이 높아진다.
H3 : 수정안의 실행이 높을수록 재선 확률이 높아진다.
451개의 사례가 있고, 연방 의원의 60.53%가 재선되었으며, 273회의 사례가 있다.
→ 재선될 확률이 재선되지 않을 확률에 비해 약 1.53배 높다는 것을 의미한다.
부패 스캔들에 연루된 후보자만 고려할 때, 재선율은 17.86%로, 56명의 대표 중 10명이 재선됐다.
이는, 이 그룹의 경우 재선 확률이 0.197이며 재선의 가능성이 0.22임을 의미한다.
재선 확률은 특정 그룹이 재선될 가능성(그룹 내에서 실제로 재선된 비율)을, 재선 가능성(그 그룹의 재선 가능성을 비교한 수치)은 해당 그룹이 재선될 확률과 재선되지 않을 확률의 비율
부패 스캔들에 연루되지 않은 후보자의 경우 재선 확률은 1.9이다.
Hosmer and Lemeshow
테스트를 사용한다.
연속 독립 변수가 있거나 샘플 크기가 작은 경우 유용하다.
Homer and Lemeshow Test
chi-square은 6.832, p-value는 0.555 → 적절한 적합성
✅ omnibus test of model coefficients
모델의 분산을 독립 변수와 영모델(단순 절편)과 비교하는 chi-square test이다.
Omnibus test of model coefficients
chi-square of 56.356 (p-value < 0.001) → fitted model이 null model보단 좋음을 의미
⇒ 독립 변수가 종속 변수의 변동에 영향을 미친다고 결론
📌 추정된 계수(β) 분석
추정의 부호를 관찰하고 자신의 가설에서 기대하는 방향과 비교해야 한다.
X_11(스캔들)은 재선 확률에 부정적인 효과 (-1.677)을 미친다.
✔️ 계수를 읽는 두가지 방법
- 오즈비 분석(Odds ration)
- 오즈비를 백분율로 전환(Odds ration into a percentage)
- 오즈비 분석 : 부패 스캔들에 연루되면 선출될 가능성이 줄어든다고 결론
- 오즈비 백분율 : 부패에 연루되면 재선 확률이 80.2% 감소하고, 가설 1 예상 적중✨
최대 우도에 의해 추정된 모델에서 일반적으로 보고되는 적합도 측정치를 요약
독립 변수를 포함한 모델이 null모델보다 더 우수한 적합성을 가지고 있다.
✔️R²(결정계수)
선형회귀 모델이 데이터를 얼마나 잘 설명하는지 보여주는데 로지스틱회귀 모델 같은 비선형 모델은 R2 사용이 어려워 유사 R2(pseudo R2)를 이용한다.
R² = 0.8 이면 모델이 데이터 변동 중 80% 설명한다는 의미
높다고 좋은 건 아님 - 과적합 가능성 존재
The classification table - confusion table이라고도 불린다.
민감도와 특이도는 하나가 증가하며 다른 하나는 감소하므로, 어떤 것이 더 중요한지 판단이 필요하다.
로지스틱 회귀 분석의 직관적인 논리를 이해하는 것이 범주형 데이터를 처리하는 다양한 절차를 더 잘 이해할 수 있는 발판이 될 수 있다.
인식론과 과학 철학 과목, 데이터 분석 실습 진행, 고급 데이터 분석 기법을 사용하는 논문을 읽는 것 확산, 미적분, 선형 및 행렬 대수, 고급 통계학 공부가 필요하다.