📌 인과관계(causality)
정의
- 한 변수(A)가 다른 변수(B)에 직접적인 영향을 미치는지 확인하는 것
- 단순 상관을 넘어 "A 때문에 B가 발생했다"를 입증
💡 상관 vs 인과
- 상관: 두 변수가 함께 움직이는 관계
- 인과: A가 B의 원인이 됨
➡️ 두 변수가 상관이 있다고 해서 반드시 인과관계가 있는 것은 아님
중요
- 모든 인과에는 상관이 있지만, 모든 상관이 인과는 아님
- 단순 상관만으로는 인과관계를 입증할 수 없음
- 관계의 강도를 더 면밀히 분석해야 함
- 제3의 요인(교란변수)가 상관을 왜곡할 수 있음
- 인과관계가 깨지는 경우
- 상관계수가 낮아 인과를 뒷받침하지 못할 때
- 제3의 요인(교란변수)이나 시간적 선후 관계가 고려되지 않을 때
🚨 교란 변수로 인해 그래프가 왜곡되었을 때 대처법
- 왜곡된 구간(훅 떨어진 부분)을 분석해도 좋지만,
- 과감히 해당 구간 제거
- 해당 구간을 제거한 후 앞뒤 데이터를 연결
- 해당 구간을 제거하고 앞뒤를 잇는 선을 그림
예시
- 아이스크림 판매량과 익사사고:
- 여름철에 아이스크림 판매량과 익사사고가 모두 급증
- 두 변수 모두 여름철이라는 제3의 요인(교란변수) 때문에 증가(상관은 있지만, 인과관계는 없음)
- 치킨집과 소화제 판매량:
- 치킨집이 많을수록 소화제 판매량도 증가
- 치킨집이 직접적인 원인이 아니라, 야식 문화 같은 교란변수가 소화제 판매량 증가에 영향을 미칠 가능성이 있음
- 광고비와 매출:
- 광고비 증가 시 매출이 증가하는 상관관계 관찰
- 하지만 매출 증가가 광고비 때문인지, 아니면 시장 수요 증가 같은 외부 요인(교란변수) 때문인지 확인 필요
📌 인과관계의 사례
- 치약 사용과 충치율:
- 데이터: 치약 사용량이 많을수록 충치율이 높아짐
- 분석: 치약 사용이 충치를 유발한다고 볼 수 있을까?
- 교란변수: 이미 충치가 있는 사람들이 통증 때문에 치약을 더 자주 사용
- 커피 섭취량과 수명:
- 데이터: 커피를 많이 마시는 사람들의 수명이 더 긺
- 분석: 커피가 장수의 원인일까?
- 교란변수: 소득 수준, 건강검진 빈도 등 생활습관이 수명에 영향을 미칠 가능성이 있음
💡 교훈
- 단순 상관관계를 인과관계로 착각해서는 안 됨
- 진짜 원인은 교란변수일 수 있음
- 숨은 변수를 항상 의심하고 확인해야 함
📌 무작위 통제 실험(RCT)
정의
- 변수 간 인과관계를 명확히 확인하기 위한 실험 방법
조건
- 두 집단은 원인(독립변수)만 다르고 나머지 조건은 동일해야 함
- 광고비와 매출
- 실험군: 광고를 본 그룹
- 대조군: 광고를 보지 않은 그룹
- 두 집단의 차이는 광고 여부만 있어야 매출 차이를 광고로 인한 것이라 말할 수 있음
- 다이어트 약 효과 검증
- 실험군: 약 복용 그룹
- 대조군: 약 미복용 그룹
- 한 그룹이 운동선수, 다른 그룹이 백수일 경우, 약으로 인한 차이가 아닌 생활습관 때문일 수 있음
🚨 두 집단의 조건을 완전히 동일하게 만들순 없으나, 최대한 비슷하게 만들어야 함
실험
- 다이어트 약 효과 검증
- 실험군: 약 복용 그룹
- 대조군: 약 미복용 그룹
- 운동선수와 백수를 무작위로 배정해 두 집단의 조건을 동등하게 만듦
- 동등한 조건으로 인해 두 그룹의 차이는 오직 원인(약 투여 여부)하나 뿐 => 인과관계 확인의 황금 표준
- 동전 던지기
- 실험군: 앞면이 나온 그룹
- 대조군: 뒷면이 나온 그룹
- 나이, 성별, 생활습관 등을 무작위로 배정하여 교란변수 제거
한계
- 실험 비용이 많이 듦
- RCT가 불가능한 경우
- 예: 정부 복지 정책 효과 평가
- 대안: 자연실험, 매칭, 차분의 차분(DID) 등
- 윤리적인 문제
- 예: 새 교육 정책에서 한 그룹만 혜택(예: 태블릿 지급)을 받고, 다른 그룹은 배제됨
📌 통계적 인과 추론
정의
💡 현실에서는 다양한 문제(윤리 문제, 비용 등)로 인해 RCT를 하기 어려운 경우가 많음
특징
- 데이터를 가지고 최대한 RCT 실험을 흉내내는 방식
- 완벽하지는 않지만, 인과효과를 추정할 수 있음
주요방법
- 매칭
- 유사한 특성(예: 연령, 성별, 소득)을 가진 집단을 짝지어 실험군과 대조군 비교
- 자연실험
- 우연히 발생한 사건(데이터셋)을 활용해 실험처럼 분석
- 예: 특정 지역에만 규제가 먼저 적용된 경우
- 차분의 차분(DID)
- 정책 도입 전후 변화를 정책 지역과 비정책 지역으로 비교
- 예: 최저임금 인상 지역과 비인상 지역의 고용률 변화를 비교
사례
- A/B테스트가 불가능 할 때, 과거 데이터에서 유사한 고객을 매칭해 비교
- 정책 평가: 특정 지역에만 도입된 복지 프로그램의 효과를 도입하지 않은 지역과 비교