통계 13: 인과관계

ヒヒヒ·2025년 10월 2일

통계

목록 보기
13/13
post-thumbnail

📌 인과관계(causality)

정의

  • 한 변수(A)가 다른 변수(B)에 직접적인 영향을 미치는지 확인하는 것
    • 단순 상관을 넘어 "A 때문에 B가 발생했다"를 입증

      💡 상관 vs 인과

      • 상관: 두 변수가 함께 움직이는 관계
      • 인과: A가 B의 원인이 됨

      ➡️ 두 변수가 상관이 있다고 해서 반드시 인과관계가 있는 것은 아님

중요

  • 모든 인과에는 상관이 있지만, 모든 상관이 인과는 아님
    • 상관은 우연이나 교란변수의 영향일 수 있음
  • 단순 상관만으로는 인과관계를 입증할 수 없음
    • 관계의 강도를 더 면밀히 분석해야 함
    • 제3의 요인(교란변수)가 상관을 왜곡할 수 있음
  • 인과관계가 깨지는 경우
    • 상관계수가 낮아 인과를 뒷받침하지 못할 때
    • 제3의 요인(교란변수)이나 시간적 선후 관계가 고려되지 않을 때

🚨 교란 변수로 인해 그래프가 왜곡되었을 때 대처법

  • 왜곡된 구간(훅 떨어진 부분)을 분석해도 좋지만,
  • 과감히 해당 구간 제거
  • 해당 구간을 제거한 후 앞뒤 데이터를 연결
  • 해당 구간을 제거하고 앞뒤를 잇는 선을 그림

예시

  • 아이스크림 판매량과 익사사고:
    • 여름철에 아이스크림 판매량과 익사사고가 모두 급증
    • 두 변수 모두 여름철이라는 제3의 요인(교란변수) 때문에 증가(상관은 있지만, 인과관계는 없음)
  • 치킨집과 소화제 판매량:
    • 치킨집이 많을수록 소화제 판매량도 증가
    • 치킨집이 직접적인 원인이 아니라, 야식 문화 같은 교란변수가 소화제 판매량 증가에 영향을 미칠 가능성이 있음
  • 광고비와 매출:
    • 광고비 증가 시 매출이 증가하는 상관관계 관찰
    • 하지만 매출 증가가 광고비 때문인지, 아니면 시장 수요 증가 같은 외부 요인(교란변수) 때문인지 확인 필요

📌 인과관계의 사례

  • 치약 사용과 충치율:
    • 데이터: 치약 사용량이 많을수록 충치율이 높아짐
    • 분석: 치약 사용이 충치를 유발한다고 볼 수 있을까?
    • 교란변수: 이미 충치가 있는 사람들이 통증 때문에 치약을 더 자주 사용
  • 커피 섭취량과 수명:
    • 데이터: 커피를 많이 마시는 사람들의 수명이 더 긺
    • 분석: 커피가 장수의 원인일까?
    • 교란변수: 소득 수준, 건강검진 빈도 등 생활습관이 수명에 영향을 미칠 가능성이 있음

💡 교훈

  • 단순 상관관계를 인과관계로 착각해서는 안 됨
  • 진짜 원인은 교란변수일 수 있음
  • 숨은 변수를 항상 의심하고 확인해야 함

📌 무작위 통제 실험(RCT)

정의

  • 변수 간 인과관계를 명확히 확인하기 위한 실험 방법

조건

  • 두 집단은 원인(독립변수)만 다르고 나머지 조건은 동일해야 함
    • 광고비와 매출
      • 실험군: 광고를 본 그룹
      • 대조군: 광고를 보지 않은 그룹
      • 두 집단의 차이는 광고 여부만 있어야 매출 차이를 광고로 인한 것이라 말할 수 있음
    • 다이어트 약 효과 검증
      • 실험군: 약 복용 그룹
      • 대조군: 약 미복용 그룹
      • 한 그룹이 운동선수, 다른 그룹이 백수일 경우, 약으로 인한 차이가 아닌 생활습관 때문일 수 있음

🚨 두 집단의 조건을 완전히 동일하게 만들순 없으나, 최대한 비슷하게 만들어야 함

실험

  • 다이어트 약 효과 검증
    • 실험군: 약 복용 그룹
    • 대조군: 약 미복용 그룹
    • 운동선수와 백수를 무작위로 배정해 두 집단의 조건을 동등하게 만듦
    • 동등한 조건으로 인해 두 그룹의 차이는 오직 원인(약 투여 여부)하나 뿐 => 인과관계 확인의 황금 표준
  • 동전 던지기
    • 실험군: 앞면이 나온 그룹
    • 대조군: 뒷면이 나온 그룹
    • 나이, 성별, 생활습관 등을 무작위로 배정하여 교란변수 제거

한계

  • 실험 비용이 많이 듦
  • RCT가 불가능한 경우
    • 예: 정부 복지 정책 효과 평가
    • 대안: 자연실험, 매칭, 차분의 차분(DID) 등
  • 윤리적인 문제
    • 예: 새 교육 정책에서 한 그룹만 혜택(예: 태블릿 지급)을 받고, 다른 그룹은 배제됨

📌 통계적 인과 추론

정의

  • 인과효과를 추정하는 또 다른 방법

💡 현실에서는 다양한 문제(윤리 문제, 비용 등)로 인해 RCT를 하기 어려운 경우가 많음

특징

  • 데이터를 가지고 최대한 RCT 실험을 흉내내는 방식
  • 완벽하지는 않지만, 인과효과를 추정할 수 있음

주요방법

  • 매칭
    • 유사한 특성(예: 연령, 성별, 소득)을 가진 집단을 짝지어 실험군과 대조군 비교
  • 자연실험
    • 우연히 발생한 사건(데이터셋)을 활용해 실험처럼 분석
    • 예: 특정 지역에만 규제가 먼저 적용된 경우
  • 차분의 차분(DID)
    • 정책 도입 전후 변화를 정책 지역과 비정책 지역으로 비교
    • 예: 최저임금 인상 지역과 비인상 지역의 고용률 변화를 비교

사례

  • A/B테스트가 불가능 할 때, 과거 데이터에서 유사한 고객을 매칭해 비교
  • 정책 평가: 특정 지역에만 도입된 복지 프로그램의 효과를 도입하지 않은 지역과 비교

0개의 댓글