Part 2. 편향 보정

Ruffy·2024년 11월 24일

CH4. 유용한 선형회귀

편향제거 기법인 선형회귀와 최소제곱법, 직교화에 대해 다룰 것이다.

선형회귀의 필요성
패널데이터 방법, 이원고정효과, 머신러닝 방법, 다른 식별 기법 등 응용 방법론의 주요 구성 요소이다.

차원의 저주에서 벗어나는 방법은 잠재적 결과를 선형회귀 같은 방식으로 모델링할 수 있다고 가정하고, X로 정의된 각각의 셀을 내삽하고 외삽하는 것이다. 결과변수를 X변수로 투영한 후, 이 투영된 값들을 바탕으로 실험군과 대조군을 비교한다.

B_1은 신용 하도에 대한 채무불이행률 기댓값의 편도함수라고 보면, 이는 모델의 다른 모든 변수가 고정된 상태에서 신용 한도를 조금 늘렸을 때 채무불이행률이 얼마나 변할지에 대한 기댓값이다. 이 해석은 회귀분석이 교란 요인을 어떻게 보정하는지 알려준다. 처치와 결과 사이의 관계를 추정하는 동안 교란 요인을 고정한다는 것도 알 수 있다.

"프리슈-월-로벨 정리"(FWL 정리)
FWL 정리는 고급 편향 제거 기법이며, 편향을 제거하는 전처리 단계에서 사용할 수 있기 때문에 매우 유용하다. 신용 한도가 다양한 사업 지표에 영향을 미치는지 알고 싶을 때, FWL 정리를 사용하면 이러한 지식을 바탕으로 신용 한도 데이터의 편향을 제거하고, 모두가 그 데이터를 사용하도록 할 수 있다. FWL 정리를 사용하면 편향 제거 단계와 영향 추정 단계를 분리할 수 있다.

  • 단순 선형 회귀
  • 다중 선형 회귀: 회귀계수는 모델의 다른 변수들의 효과를 고려한 후 얻은 동일 설명변수의 이변량 계수라는 의미
  • FWL 스타일의 직교화: 비실험 데이터를 처치가 무작위 배정된 것처럼 보이게 함
    편향 제거 단계 -> 잡음 제거 단계 -> 회귀 추정량의 표준오차 -> 최종 결과 모델

+양수성과 외삽
+비선형성
+더미변수
+누락변수편향
+중립통제변수

정리: 선형회귀분석을 사용하여 교란 요인을 보정하는 방법, 편향 보정에 매우 유용한 방법인 직교화를 활용한 편향 제거

CH5. 성향점수

또다른 편향 제거 방법 중 하나인 성향점수 가중치를 배운다. 이 방법은 직교화처럼 잔차를 생성하는 대신, 처치 배정 메커니즘을 모델링하고 모델 예측을 사용하여 데이터를 재조정한다. 또한 성향점수 가중치를 결합한 이중 강건성도 알아본다.

위 방법은 이진(binary)이나 이산형(discrete) 처치가 있을 때 적합하다. 하지만 처치가 연속형일 때도 성향점수 가중치를 사용할 수 있는 확장된 방법도 있다.

<성향점수>
1. 성향점수 추정
2. 성향점수와 직교화 -> ATE 추정값
3. 성향점수 매칭
단, 매칭 추정량은 편향될 가능성이 있으며, 분산을 추정하기 어렵고, KNN적이라는 한계점이 존재함
4. 역확률 가중치(IPW)
: 처치의 역확률에 따라 데이터의 가중치를 재조정하여 해당 데이터에서 처치가 무작위 배정된 것처럼 보이게 할 수 있다. 이를 위해 표본에 가중치를 부여하여, 모든 실험 대상이 처치를 받았을 경우와 비슷한 유사 모집단을 생성한다.
5. 역확률 가중치의 분산
: IPW 추정값의 신뢰구간을 얻는 가장 간단한 방법은 부트스트랩 방법이다.
6. 안정된 성향점수 가중치
: 머신러닝 관점에서, IPW를 중요도 샘플링의 응용으로 바라볼 수 있다. IPW 과정을 통해 실험군과 대조군의 가중치 합이 원래 표본 크기에 얼마나 가까운지 확인한다.
7. 유사 모집단
8. 선택편향
9. 편향-분산 트레이드오프
10. 성향점수의 양수성 가정

+이중 간건 추정
: 모델기반 식별과 디자인 기반 식별을 모두 결합하여, 적어도 둘 중 하나가 정확하기를 기대하는 방법이다. 모델 기반 식별은 처치 및 추가 공변량을 조건부로 설정하고 잠재적 결과에 대한 모델 형태로 가정하는 것을 포함한다. 이러한 관점에서 목표는 추정에 필요한 누락된 잠재적 결과를 대체하는 것이다. 반면, 디자인 기반 식별은 처치 배정 매커지즘에 대한 가정을 한다.
처치가 어떻게 배정되었는지 잘 이해하고 있나요? 잠재적 결과 모델을 올바르게 지정하는 더 좋은 방법이 있나요?
-> 처치 모델링이 쉬운 경우 // 결과 모델링이 쉬운 경우

+연속형 처치에서의 일반화 성향점수
: 가장 간단한 방법은 연속형 처치를 이산화하는 것이다. 또는 일반화 성향점수(GPS)를 사용하는 방법도 있다.

profile
to be data scientist

0개의 댓글