DID(Difference-In-Differences)는 Causal Inference의 대표적인 방법 중 하나입니다.
DID는 Control Group의 Outcome 변화량을 Treatment Group이 Treatment를 받지 않았을 때의 변화량으로 간주합니다.
즉, 'Counterfactual = Treatment 받기 전의 값 + Control Group 증감' 입니다.
예를 들어, Control Group Outcome은 5→6으로 +1 증가, Treatment Group Outcome은 5→10으로 +5 증가했다면,
Counterfactual은 5+1=6, Causal Effect는 5-1=4 입니다.
Before Treatment | After Treatment | Diff | Causal Effect | |
---|---|---|---|---|
Treatment Group | 5 | 10 | +5 | +4 = (ATET) |
Control Group | 2 | 3 | +1 |
이를 수식으로 쓰면 다음과 같습니다.
수식에서 볼 수 있듯이, DID는 Causal effect를 Treatment group 만으로 계산합니다.
따라서, DID로 구한 Causal effect는 ATET 입니다.
DID를 사용하기 위해선 'Parallel Trend Assumption'을 만족해야 합니다.
Parallel Trend Assumption이란 ‘Control Group과 Treatment Group의 Trend가 Treatment Effect를 제외하면 같다’는 가정 입니다.
보통 시각적으로 두 그룹의 Trend가 Treatment 이전 시기에 같은지 확인하고,
같지 않다면 Matching 등을 통해 해당 가정을 만족시킵니다.
가지고 있는 데이터가 두 그룹(Treatment/ Control)과 두 시점(Treatment 이전/이후)에 대한 Grouping Data이고 Parallel Trend를 만족한다면, Simple Regression Model을 사용할 수 있습니다.
물론, 목차1 예시 처럼 직접 계산할 수도 있지만 표준 오차 등의 정보를 얻기 위해 Regression model을 사용하는 것이 좋습니다. (결과는 같습니다)
만약 시점이나 그룹이 여러 개인 데이터(패널 데이터) 라면 어떻게 해야 될까요?
Parallel Trend를 만족시키기 위해 시점/그룹 특성에 의한 많은 counfounders를 통제해줘야 할 것입니다.
하지만, 모든 counfounders를 측정하여 통제하기란 쉽지 않습니다.
예를들어, 결혼이 수입에 미치는 영향을 측정한다고 가정해 봅시다.
결혼 유무와 관계없이 인플레이션에 의해 시간이 지나면 수입은 상승할 것입니다.
또, 사람마다 외모가 다르고 매력적인 외모를 가진 사람은 결혼도 잘하고 수입도 높을 수 있습니다.
외모 외에도 성격, 재력 등 다양한 요인이 있겠죠.
이런 counfounders를 모두 측정하기란 사실상 불가능합니다.
Two-way fixed model은 시점과 사람 자체를 더미변수로 추가해줌으로써 관측되지 않은 confounders 들도 모두 통제합니다.
다음은 Two-way fixed model 공식입니다.
DID는 Control group의 결과값 변화를 Treatment group이 Treatment를 받지 않았을 때의 변화량으로 간주하고, 그룹별 변화량의 차이를 Causal effect로 보는 방법입니다.
두 그룹/시점에 대한 데이터는 Simple regression으로, 패널 데이터는 Two-way fixed model을 활용하여 Causal effect를 구할 수 있습니다.