최근, 인과추론에 Tree 계열이나 Neural Network 모델 같은 복잡한 머신러닝 모델을 활용하고 있습니다 (보통 Tree 모델을 많이 사용).
이렇듯 인과추론에 머신러닝 모델을 활용하는 이유는 뭘까요?
바로, CATE(Conditional Average Treatment Effect)를 계산하기 위함입니다.
CATE란 샘플 특성에 따른 Treatment Effect인데요,
현실에선 모든 샘플이 같은 효과를 가지기 보단, 샘플 특성에 따라 효과가 달라지는 경우가 많습니다.
예를들어, A신약은 고연령층 남성에게 더 효과적일 수 있고, 특정 마케팅은 10대 라이트 유저에게 효과적일 수 있습니다.
CATE는 ATE에 숨겨진 더 많은 인사이트를 제공하고, 이를 마케팅 등에 유용하게 활용할 수 있습니다. 예) 광고가 효과적인 세그먼트에 광고를 더 노출
CATE를 계산하기 위해선 변수 간 복잡한 관계를 알아내야 합니다.
변수는 비선형의 복잡한 관계로 얽혀있을 수 있는데요,
단순 regression 모델로 이런 관계를 학습하기엔 한계가 있기에 더 복잡한 머신러닝 모델이 필요해집니다.
Linear regression 모델 formula는 다음과 같습니다.
Control variable과 Outcome Variable의 선형 관계를 가정하지만, 실제론 선형관계가 아닐 확률이 높죠.
또한, 변수 간 상호작용도 고려하지 못합니다.
물론, 상호작용 term을 추가할 순 있지만 변수 개수가 많아진다면 쉬운 일이 아닐 겁니다.
반면, Tree 계열이나 NN 모델은 모델 구조를 미리 정해놓지 않고, 데이터에 따라 유연하게 생성하는 non-parametric learning 모델이기 때문에 복잡한 데이터 패턴도 잘 학습합니다.
따라서 최근엔 복잡한 모델을 basic learner로 사용하는 기법들이 발달하고 있고,
대표적인 방식으로는 Meta learners, DR Estimation, Double Machine Learning, Causal Tree 등이 있습니다.
nn 은 parametric 아닌가요?