
이번 시리즈는 박지용 교수님의 인과추론의 데이터 과학이라 유튜브 채널을 참고하여 작성하였습니다. 많은 좋은 영상 중 Korea Summer Workshop on Causal Inference 2023 시리즈를 참고하여 작성하였습니다. 공부하는 과정이기에 부족한 점이 있다면 알려주시기를 간절히 바랍니다.
출처: 참고 유튜브 채널 링크
빅데이터 시대에 접어들면서 AI가 개발되고 많은 분들이 머신러닝을 배우고 있습니다. 그러면서 함께 떠오른 것이 상관관계의 중요성입니다. Prediction 중심 모델과 빅데이터라는 대수의 법칙은 인과관계보다 상관관계만 있어도 충분히 좋은 모델링을 할 수 있다는 생각이 퍼지게 만들었습니다.
물론 이는 부정할 수 없는 사실입니다. 하지만 모든 연구 주제에서 그렇다고 할 수 있을까요?
만약 어떠한 일에서 원인을 찾아야 한다면 상관관계에 있는 요인을 수정한다고 해서 해결할 수 있을까요? 당연히 아닙니다.
그래서 이번 시리즈는 인과관계를 다루는 분야이자 제가 생각하기에 현재 통계학이라는 분야에서 가장 트렌디한 분야, Causal Inference를 가지고 왔습니다. 재밌게 글을 읽어주셨으면 좋겠습니다.
일반적으로 최적의 표준을 Gold standard라고 하는데,
인과추론 분야에서 Gold standard는 Randomized Controlled Trial(RCT)라고 할수 있습니다.

위 그림에서 위 단계로 갈수록 인과추론을 위한 가정을 효과적으로 충족할 수 있고, 그렇기 때문에 인과추론 결과에 대한 신뢰성이 높은 방법론입니다.
이때 가장 위에 위치한 Meta-Analysis는 여러 연구들을 종합하는 방법론이기 때문에 단위의 개념에서 인과추론 수준이 가장 높은 방법론은 Randomized Controlled Trial라고 할 수 있습니다.
그럼 왜 Randomized Controlled Trial가 Gold Standard일까요?
현실에서 인과추론 분석을 하기에 적합하지 않는 경우가 많을 수 있는데, RCT는 실험이 불가능한 상황에서도 기준점이 되어줄 수 있기 때문에 활용할 수 있기 때문에 중요합니다.
또한, 실험이 불가능한 상황에서 실험의 세팅을 모방하고자 하는 RCT 밑의 방법론들이 사실 인과추론에서 더 중요하지만 이러한 방법들을 이해하는 그런 첫 걸음으로써 기준점이 되어주는 것이 RCT이기 때문에 이번 글에서는 RCT에 대해서 다루도록 하겠습니다.
RCT는 무작위 실험 기법을 활용하여 처리(Treatment) 여부가 무작위로 배정되는 실험을 의미합니다.
기본적으로 Random assignment는 동전 던지기라고 비유할 수 있습니다.
이론적으로 동전을 던지면 앞/뒤가 반반 나오겠지만 실제로는 항상 반반이 아닙니다.
하지만 결국 동전 던지기 횟수를 계속해서 늘리다 보면 결국에는 반반의 비율에 가까워질겁니다.
그리고 이게 우리가 통계에서 말하는 큰 수의 법칙입니다.
즉, 무작위 실험은 큰 수의 법칙에 기초하여 처리 여부를 배정하는 것입니다.
만약 무작위로 처리 여부를 부여한다면, 그리고 각 그룹의 수가 크다면 대조군과 처리군에서 Treatment를 제외한 다른 모든 변수들의 값들이 그룹 측면에서는 비슷해질겁니다.
따라서 두 그룹의 차이를 Treatment 때문이라고 생각할 수 있게 되는 것입니다.
다시 말해서 무작위 실험이 인과추론의 Gold standard라고 여겨지는 이유는 Treatment에 대한 Random assignment는 Ceteris Paribus 를 달성할 수 있는 Counterfactual를 만들 수 있는 가장 효과적인 방법이기 때문입니다.
그래서 비교 가능한 대조군을 통해서 우리가 Counterfactual를 대신함으로써 결과적으로 Selection bias를 가장 효과적으로 제거할 수 있는 방법이기 때문입니다.
그렇기 때문에 이런 이유가 무작위 실험에 기초한 Randomized Controlled Trial가 Gold Standard라고 불리는 이유입니다.
무작위 실험에서 가장 중요하고, 먼저 체크해야할 부분은 바로 무작위 배정이 얼마나 잘 되었는지 확인하는 것입니다.
예시로,
대학교 교실에서 노트북이나 태블릿을 허용하는 게 실제 학생들의 성적에 어떤 인과적인 효과가 있는지 분석하는 무작위 실험 연구가 있다고 해봅시다.

경제학 수업에는 50개의 Class가 있고 그 수업을 수강하는 726명의 학생을 대상으로 각 클래스를 3개의 그룹으로 배정합니다.
첫번째 그룹은 자유롭게 노트북과 태블릿을 허용한 그룹, 두번째 그룹은 일부 제약을 두고 노트북과 태블릿을 허용한 그룹, 마지막 그룹은 교실 내에서의 컴퓨터나 태블릿 사용을 전면 금지한 그룹입니다.
여기서 목표로 삼고 있는 Treatment는 노트북, 태블릿 사용 여부고, 메인 결과는 학기말 성적으로 디자인한 전형적인 현장 실험 연구입니다.
이때 Treatment를 제외한 나머지 변수를 모두 평균적으로 같게 해야합니다.

이를 표로 각 변수들을 확인해보았을 때 그룹별로 큰 차이가 없음을 알 수 있으며,

Treatment 변수는 각 그룹별 차이가 잘 드러남을 확인할 수 있습니다.
그 결과는 다음과 같이 나타났습니다.

이때 Treatment 이외의 변수들은 메인 결과에 영향을 줄 수 있지만, Treatment 효과 자체에는 거의 영향이 없어야 한다.
다시 말해 random assignment가 제대로 됐다면, 이렇게 통제 변수를 추가했을 때도 Treatment 효과가 큰 변화가 없어야 합니다.
예를 들어 대조군에서의 결과가 처리군에 의해 어떤 방식으로든 간접적으로 영향을 받으면 안됩니다.
만약 재택근무 자원자를 받은 후 자원자에서 무작위 배정을 통해 재택근무할 직원을 뽑는다면, 뽑히지 않은 직원들은 해당 실망감에 업무 생산성이 낮아졌을 수도 있습니다.
그러니깐 이런 가능성에 대해 배제하기 위해 여러가지 간접적인 테스트들을 수행해야하고 실제로 해당 연구에서도 그런 것들을 보여줬습니다.
또 다른 사례를 살펴보면 우버에서 이제 현금 결제에 관한 현상 실험을 했을 때,
무작위로 배정된 기사들에게 현금결제인지 아닌지에 대해 미리 표시해줄 때 이게 기사님들에게 어떤 영향을 미치는지 확인해보고자 했습니다.

하지만 왼쪽 그림을 봤을 때 실험군에서 7월 이후 세금을 더 아낄 수 있는 현금 결제를 더 선호하기 때문에 카드결제 고객을 거부하는 비율이 늘어났고, 이에 따라 카드 결제와 현금 결제를 구분하지 못하는 대조군에 카드 결제 고객들이 늘어나게 되었다는 것을 파악할 수 있습니다.
그러니깐 두 그룹은 무작위로 배정이 되어서 한 그룹에만 Treatment가 배정이 되었다고 하더라도 대조군에서의 결과가 지금 실험군에 영향을 간접적으로 받고 있음을 확인할 수 있습니다.
그러므로 이게 전형적으로 STUVA에 위배되는 상황입니다.
따라서 이 상황에서는 대조군과 실험군에서 인과적인 효과를 제대로 추정할 수 없게 되는 것입니다.
그러므로 이런 경우에는 실험 디자인에 대해 새롭게 생각해봐야할 필요가 있습니다.
마지막으로 Imperfect Compliance입니다.
아무리 연구자가 실험 수행해서 Treatment를 결정하고 배정한다고 해서 무조건 실험 참가자들이 연구지침에 잘 따르고 Treatment를 제대로 받았는지 여부까지 연구자가 직접 관여하기 어렵습니다.

따라서 만약 Treatment만 신경써서 연구한다면 실제 Treatment를 받았을 때의 효과와는 다를 수도 있습니다.
이런 상황을 이제 Imperfect Compliance라고 합니다.
이 경우에는 이제 도구변수를 활용해서 assignment를 잘 따르는 집단, Compliance라는 이 Subsample에서 인과적인 효과를 구하는 Local Average Treatment Effect(LATE) 구함으로써 이 문제를 해결할 수 있습니다.
그리고 이렇게 도구변수를 활용해서 LATE를 계산한 대표적인 연구가 2021년 노벨 경제학상을 받은 연구의 대표적인 성과이기도 합니다.
지금까지 RCT를 살펴보았는데, 그럼 한계점은 무엇이 있을까요?
첫번째는 RCT가 특정 유형의 Treatment에 대한 인과적인 효과만을 추정한다는 것이 중요하면서도 하나의 단점으로 작용합니다.
인과추론을 할 때는 연구자가 관심있는 Treatment가 무엇인지, 그것의 Potential Outcom이 어떻게 정의될 수 있는지 구체적으로 정의하는 것이 굉장히 중요합니다.
예를 들어 "물이 건강에 해로운가?"와 같은 질문은 사실 인과추론에 적합한 질문이 아닙니다.
왜냐하면 물이 어떤 물인지, 어디서 나온 물인지, 어느 정도의 양의 물인지에 따라서 사실 이 물이라고 하는 원인은 너무나도 많은 다양한 버전일수도 있고, 이에 따라 너무 다양한 버전의 Treatment가 있을 수 있기 때문에 이들의 결과도 다를 수 밖에 없기 때문입니다.
그러니깐 물의 인과적인 효과라고 했을 때 Treatment가 너무 다양하고 결과도 다르기 때문에 인과효과를 구하기가 어렵고 그게 무슨 의미인지도 말하기가 어렵습니다.
따라서 인과추론을 할 때는 구체적이어야 하고, Potential Outcome가 의미있게 해석될 수 있는 잘 정리된 Treatment를 디자인하는 것이 굉장히 중요합니다.
이어서, 더 중요한 부분은 External Validity에 관한 부분입니다.
사실 동일하게 정의된 어떤 Treatment를 활용한다고 하더라도 RCT를 통해서 구한 인과적인 효과를 다른 상황에 일반적으로 하는 것은 쉽지 않을 수 있습니다.
연구결과를 일반화하기 위해서는 우리는 Randomization의 두가지 측면을 살펴볼 필요가 있습니다.
우선, RCT가 Treatment를 제외하고 나머지 요인들이 모두 유사한 대조군을 구성할 수 있었던 가장 큰 무기가 바로 Random assignment인데 여기서 이 결과가 Selection bias를 효과적으로 제거함으로써 인과관계를 잘 추론할 수 있다는 사실은 결국 현재 Sample에 국한된 이야기입니다.
이 Sample의 효과가 그러면 다른 Sample로 확장이 될 수 있다거나 혹은 전체 집단으로 확장될 수 있게 하기위해선 이 sample이 전체 집단을 대표해야합니다.
그렇기 때문에 이런 Representive Sample을 도출하기 위해서는 또 다른 Randomization이 필요한데, 바로 이 전체 모집단에서의 Random Sampling이 바로 그겁니다.
이렇게 전체 모집단에서 Random Sampling을 하고 나면 우리가 분석하는 이 Sample은 전체 모집단을 대표하고 또 평균적인 특성이 유사할 것이기 때문에 이 Sample에서 구한 인과 효과가 전체 모집단으로 확장될 수 있고 또 모집단 내에 다른 Sample에서 그대로 적용될 수 있다고 우리가 합리적인 가정을 할 수 있습니다.
하지만 일반적으로 이런 Random Sampling은 쉽지 않은 경우가 굉장히 많기 때문에 Random Sampling이 되지 않은 Representive Sample 아니라면 항상 RCT의 결과를 일반화하는 것은 항상 주의를 기울여야 합니다.
인과추론 방법론은 상관관계에서 인과관계를 보다 잘 발라내기 위해서 사실 Internal Validity에 굉장히 초점이 맞춰져 있는 방법이기 때문에 그 반대급부로써, External Validity는 어느 정도 희생이 따를 수 밖에 없고 그것이 가장 큰 한계라고 볼 수 있습니다.
그래서 이러한 한계점을 분명히 인식하고 그래서 본인의 어떤 연구 결과와 인과추론 결과를 과대포장하지 않고 현재 Context에서의 분석결과가 적용될 수 있는 Boundary Condition에 대해서 이야기 하는 게 일반적인 접근 방법입니다.
또 경우에 따라서는 전체 집단으로 일반화에 대한 요구가 많지 않을 수도 있습니다.
아무튼 결론적으로 강조하고 싶은 부분은
Causal Inferenve approach 전반에 대한 위 한계점을 우리는 분명히 인식할 필요가 있는 점이고, 세상에 완벽한 방법론은 없다는 생각을 해봤으면 좋겠습니다.
인과추론의 가장 치명적인 한계라고 생각하는 부분은 바로 인과추론 방법론으로 다루지 못하는 연구 문제들이 여전히 굉장히 많다는 점입니다.
따라서 인과추론 방법론에만 너무 맹신하게 되면 인과추론으로 연구될 수 없는 수많은 중요한 문제를 아예 무시해버릴 수 있고, 또 모든 연구 문제들을 이런 인과추론의 잣대로만 평가하면서 세상을 이해한다면 어떤 틀에 스스로 제한해버리는 꼴이 일어날 수 있습니다.

실제로 2021년 노벨 경제학상 수상자 중 한 분이자 어쩌면 현 시점에서 인과추론 분야 연구의 가장 최전선에 있으신 Guido W. Imbens 교수님도 이런 우려에 대해서 깊이 공감을 하고 있고,
그렇기 때문에 이런 우를 범하지 않기 위해서는 인과추론이 언제 필요한지, 그리고 각 방법론들의 장단점이 무엇인지에 대한 이해와 큰 그림에서 그걸 평가할 수 있는 안목이 필요하다고 생각합니다.