4-3 베이즈 통계학 맛보기 냠

마친자·2024년 2월 8일

조건부 확률이란?

  • 조건부확률: 특정 B가 일어난 상황에서 A가 일어날 상황/특정 사건 B가 일어난 상황
  • 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줌
  • 베이즈 정리 예제
    • D: 새로운 데이터
    • θ: 가설, 모델링하는 이벤트, 모델에서 계산하고 싶어하는 파라미터(모수) 등
    • (1): 데이터가 주어졌을때, 이 파라미터(가설)가 성립할 확률
    • (2): 데이터가 주어지지 않았을때, 파라미터(가설)에 대한 모델링에 하기가기 전 사전에 주어진 확률 => 가정을 깔아놓고 미리 사전에 확률분포에 대해서 설정하는 것
    • (3): 현재 주어진 모수(가설)에서 이 데이터가 관찰될 확률
    • (4): 데이터 전체의 분포
  • COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제 걸렸을때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을때 정말로 COVID-99에 감염되었을 확률은?

베이즈 정리를 통한 정보의 갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다.
  • 앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?

조건부 확률 -> 인과관계? NO!!

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(A가 B의 원인인가?)를 추론할 때 함부로 사용해서는 안됩니다.
    • 데이터가 많아져도 조건부확률만 가지고 인과관계를 추론하는 것은 불가능합니다.
  • 인과관계는 데이터분포의 변화에 강건한 예측모형을 만들 때 필요합니다.
  • 인과관계를 알아내기 위해서는 중첩요인의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 합니다.
    예) 키가 크나 작냐에 따라 지능지수에 차이가 있는가?
    • 키가 클수록 지능지수가 높다고 나옴 (why? 나이라는 중첩요인을 제거하지 않았기 때문에)
profile
마루에 미친자

0개의 댓글