인과와 상관

김하경·2025년 9월 25일

통계

목록 보기
9/13

잘못된 해석을 방지하기 위한 사고 방식

인과관계 밝히기

데이터에서 "관계가 있다"는 건 쉽게 알 수 있음
광고비와 매출이 같이 움직인다
공부시간이 늘면 점수도 늘어난다
하지만 "원인이다"라고 말하는 건 전혀 다른 문제

인과관계 밝히기란?

한 변수가 다른 변수에 실제 영향을 주었는지 입증하는 것
즉, 단순 상관을 넘어 "A 때문에 B가 일어났다"를 보여주는 것
상관이 있다고 해서(r값자체 높다고 해서) 해당부분을 원인이라 지으면 안된다.
항상 교란 변수(제 3의 요인)존재 가능성을 의심해야함

사례)
아이스크림 ↑ <-> 익사사고 ↑???
-> 원인은 아이스크림이 아니라 여름 더위
치킨 집 많음<->소화제 판매 ↑???
-> 원인은 치킨이 아니라 야식문화

분석을 하면서 분석을 맹신하지 말아라!!!

인과관계를 밝히려면은 단순 상관이상이 필요한 이유는?

A. 1. 관계의 강도를 더 크게 보이기위해(X)

  1. 제 3의 요인(교란 변수)때문일 수 있기 때문에(O)

상관: 단순히 같이 "움직인다"
예 광고비 ↑ <-> 매출 ↑(같이 움직임)
인과: A때문에 B가 생겼다.(원인-결과)
예 광고비 ↑ <-> 매출 ↑(원인과 결과 연결)

중요한 포인트
모든 인과관계에는 상관이 있다.
하지만 모든 상관관계는 인과가 아니다
=> 우연,교란변수 때문일 수 있음

예시)
치약사용<->충치율
데이터: 치약사용량 ↑->충치율 ↑
착각: 치약이 충치를 만든다???
교란변수: 이미 충치가 있는 사람들이 양치질을 더 자주함

커피섭취<->수명
연구: 커피를 많이 마시는 사람들이 오래 산다
착각: 커피가 장수비결??
교란변수:소득 수준,건강검진 생활습관 요인

데이터 분석가의 입장

단순한 상관을 인과로 착각하면 위험
진짜 원인은 교란 변수 일 수 있음
분석가는 항상 "혹시 숨은 변수가 있는 건 아닐까?"라고 의심해야함

*교란변수란?
두 변수 모두에 영향을 주어 잘못된 상관을 만들어내는 숨은 요인(O)
:관계가 있는 것처럼 보이는 착각 문제
데이터를 왜곡시키는 극단값(outlier)(X)
:수치(상관계수)자체가 왜곡되는 문제

*교란변수와 상관계수

교란변수(confounding variable)

두 변수 모두에 영향을 줘서 마치 두 변수가 직접적인 인과관계가 있는 것처럼 잘못된 상관을 만들어내는 숨은 요인
예: 아이스크림 판매량과 익사자 수 → 실제 원인은 기온(온도)

극단값(outlier)

데이터 분포에서 멀리 떨어진 특이값
상관계수(특히 피어슨 상관계수)는 평균과 분산 기반이라 극단값에 매우 민감합니다.
즉, 실제로는 상관이 거의 없는데 극단값 몇 개 때문에 상관계수가 크게 왜곡될 수 있음.


무작위 통제실험(RCT)

인과를 밝히는 조건

두 집단을 비교할 때 필요한 조건:
원인만 다르고, 나머지는 똑같아야 한다(이렇게 진행할 수 있음) 두 집단을 비슷하게 맞추는 게 필요

예: 광고비가 매출에 영향을 주는지 확인

광고를 본 그룹(실험군)
광고를 보지 않은 그룹(대조군)

→ 두 집단의 차이는 광고 여부만 있어야 한다
→ 그래야 매출 차이를 광고 때문이라고 말할 수 있다

실무 정책/사례
의학: 신약 임상시험-> 약 투여(실험군) vs 위약(대조군) 그룹비교
비지니스 A/B테스트-> 버튼 색 변경 그룹 vs 기존 그룹
정책: 복지 프로그램 도입지역 vs 미도입 지역 비교

Q. 인과를 밝히려면 두 집단이 어떻게 달라야할까요?
A. 원인만 달라야하고 나머지는 같아야한다.

누가 어느 그룹에 속할지는 무작위로 배정
차이는 오직 "원인(약 투약 여부)하나뿐

-> 결과차이를 약때문이라고 말할 수 있음
-> 인과 확인의 황금 표준
즉 교란변수제거장치(제 3의 변수)는 집단을 무작위로 배정

교란변수제거효과:무작위배정으로"원래 건강해서 나은 것 같은 요인" 최소화
현실적 한계
비용이 크다
윤리적 문제(약을 주지 않는 집단이 피해를 볼 수 있음)


1. 차분(Difference)이란?
어떤 값에서 다른 값을 빼서 변화량을 보는 것.

예: 광고 전후 매출 차이
Δ=매출(광고 후)−매출(광고 전)

즉, 단순히 “이전과 이후의 차이”를 보는 것.

  1. 차분의 차분 (Difference-in-Differences, DID)
    두 집단이 있을 때, 각 집단의 전후 차이를 구한 뒤, 그 차이들의 차이를 다시 보는 것.

수식으로 쓰면:
DID=(실험군 전후 차이)−(대조군 전후 차이)

  1. 예시

실험군(광고를 본 집단)

광고 전 매출: 100
광고 후 매출: 150
차이 = +50

대조군(광고를 안 본 집단)

광고 전 매출: 80
광고 후 매출: 90
차이 = +10

👉 차분의 차분 = 50 - 10 = 40
즉, 광고 효과는 “광고군이 증가한 50”이 아니라, “대조군이 자연스럽게 늘어난 +10을 뺀 순수 효과 40”으로 해석할 수 있음.

인과효과를 추정하는 또다른 방법

왜 필요하나? 한계가 있기 때문

현실에서는 RCT를 하기 어려운 경우가 많음



특정지역
몇년 사이에 부동산 정책이 급변하고 있는데 서울시만 보더라도 투자 과열지구 예전에 5개~6개가 있었는데 지금은 4개의 구만 있음 그 4개로 줄었을 때 그 나머지 2구 에대한 어떻게 변화가 되었는지를 제거된 구와 제거되지 않은 구를 비교할 수 있다는 거다

어떠한 유저한테는 반영안하고 어떠한 유저한테는 반영하는게 안되니까 과거 데이터 사용

실무

0개의 댓글