인과추론 잠재적 결과 프레임워크 이해하기

생각하는 마리오네트·2023년 11월 28일
0

통계

목록 보기
41/41
post-thumbnail

인과추론을 바라보는 프레임워크 중에서 잠재적 결과 프레임워크(Potential Outcomes Framework)에 대해서 알아보자.

1. 잠재적 결과 프레임워크(Potential Outcomes Framework)

먼저 해당 프레임 워크의 컨셉은 " Treatment가 적용되지 않았다면 어땠을까? " 에서 시작된다.
(Treatment는 직역하면 "처리"라고 부르며, 어떠한 원인이라고 생각해볼 수 있다.)

간단한 예시로 "책을 읽은 엄마친구 아들의 성적" 이라고 했을때 "책을 읽은" 에 해당하는 부분이 Treatment이다..

그렇다면 인과 효과란 무엇일까?
인과효과(Causal effect)란 "원인이 있을때 결과" 에서 "원인이 없었다면 있었을 잠재적 결과(counter factual)"를 뺀 것을 의미한다.

예를 한번들어보자


[비료의 사용과 농산물 생산량 관계]

비료를 사용한 생산량이 100인데, 만약 비료를 쓰지 않았다면, 생산량이 어땠을까?
이때 (비료를 사용했을때 생산량 - 비료를 쓰지않았을때 생산량) 이 인과효과(Causal effect)가 된다.
원인 비료의 차이로 인한 생산량의 차이 즉, 비료라는 원인으로 인한 생산의 차이 효과가 된다.

하지만, 우리는 비료를 쓰지않았을때 생산량을 알수가 없는데 이것을 잠재적 결과(potential outcomes)라고 한다.

잠재적 결과(potential outcomes)는 관찰되지 못한 가상의 결과이기 때문에 우리는 알수가 없다. 이부분이 Fundamental Problem of Causal Inference(인과추론의 근본 문제)이다.

[부모님의 마음]

책을 읽은 엄마친구아들의 성적을 보고 우리아들도 책을 읽으면 공부를 잘할것이라고 생각한다. 이것은 원인이 책이라고 생각했을때 가정이다.

하지만 이는 잘못된 부분이 있다.

실제로 인과관계를 따질때는 아래와 같이 비교해야한다.
(책을 읽은 엄친아 성적) - (책을 읽지 않은 엄친아 성적)

하지만 부모님들은 아래와 같이 비교하게 된다.
(책을 읽은 엄친아 성적) - (책을 읽지않은 우리아이 성적)

즉, 우리는 책이라는 원인에 의한 결과를 따져야하지만, 그것 이외의 다른 부가적 요소가 있는 샘플(아이들)들을 가지고 비교하면서 인과관계를 파악하려고한다. 이것이 잘못된 부분이다.


2_1. 인과추론의 양대난적 : 1. 선택편향

  • 선택편향(selection bias)이란 표본자체를 잘못 선정한 것인데, 엄친아 예시를 보면 분석 대상들이 처치(treatment)여부를 직접 "선택"했기 때문에, 두 비교 대상 간에 관찰되지 않은 요인에 의한 체계적인 차이가 존재하지 않을까?

  • 엄마친구 아이 성적과 우리아이성적은 근본적으로 비교가능하지 않다. 책을 읽은것과 상관없이 두 아이는 같지않다. 즉, 여러가지 복합적인 요인에있어서 서로 비교가능한 대상이 아니라는 점이다.

2_2. 인과추론의 양대난적 : 2. 역 인과관계

  • 인과관계와 역 인과관계는 모두 동일한 상관관계를 도출한다.
    무슨의미인지 예시를 통해서 살펴보자

사진출처 : (https://www.youtube.com/watch?v=b2P03HoxXhM)

위에 그래프를 보면 경찰관 1인당 담당인구와 범죄발생에 대한 산점도 그래프이다.
경찰관 1인당 담당인구가 적다는것은 경찰관 인구 대비 많다는 것이다.

데이터를 살펴보면 도시가 형성될때 가장 중심가였던, 중구가 많이 포함이 되어있다.

그래프에서 낼 수 있는결론은 다음과 같다.
X(경찰관이 많으면) -> Y(범죄발생이 높아진다) 이렇게 지을 수 있을까?? 이번에는 반대로 생각해 보자
X(범죄 발생이 높아서) -> Y(경찰관이 많이 배치되었다) 이것이 더 자연스럽지 않은가?

즉, 역 인과관계가 있는경우 데이터에서는 사실상 판별하기 힘들다. 우리는 예제를 통해서 해석을 했지만 데이터만 봤을때는 이를 알아차리기 힘들다.

따라서, 우리는 역인과관계에 의한 착시는 아닌지 항상 고민해 봐야한다.

3. Potential Outcomes Framework 관점에서의 추론 문제 해결방안 : Counter Factual

  • 핵심 처치(treatment)를 제외한 대부분의 요인들이 비교가능한 대상찾기(Counter Factual)

  • 현실에서의 독서효과를 통한 예시

(책을 읽은 엄친아 성적) - (책을 읽지않은 우리아이 성적) -> 실제 인과관계

( 책을 읽지않은 엄친아 성적) - (책을 읽지않은 우리아이성적) -> 선택 편향

선택편향을 없애기 위해서는 Treatment(처치, 독서)를 제외한 나머지는 다 같은 조건으로 만들어야한다.
이것이 잠재적 결과 관점에서 인과추론의 대원칙이며, 이것을 Ceteris paribus(그것만 빼고 다 같은 조건)이라고 한다.
만약에 독서효과를 비교하려면 우리아이의 가정형편과 성장배경이 똑같고 유전자도 비슷한 형제 더 나아가 일란성 쌍둥이를 통해 비교를 해야 선택편향을 없앤 Ceteris paribus에 부합한다고 할 수 있다.

학습내용 출처 : (https://www.youtube.com/@causaldatascience)
profile
문제를해결하는도구로서의"데이터"

0개의 댓글