HALF1007 통계학(수학교육과 배윤한 교수님) 수업을 듣고 정리했습니다.
사건 A가 일어났다는 정보를 알게 되면, 우리가 고려해야 할 세계(표본공간)는 S 전체가 아니라 A로 축소된다.

이 축소된 표본공간 안에서 사건 B가 차지하는 비율이 바로 조건부 확률이다.
수학적 확률 모델(등확률 모델)을 적용할 수 있는 경우에는 더 직관적으로 표현할 수 있다.
그냥 원소의 개수로 계산하면 된다.
가 에서 확률이 됨을 증명하기 위해서 확률의 세 가지 공리를 만족하는지 확인하면 된다. 생각해보자!
두 개의 주사위를 던지는 시행을 생각해보자. 전체 표본공간은 36개의 순서쌍이다.
아무 조건 없이 합이 6일 확률은 5/36이다. 하지만 "첫 번째가 4"라는 정보가 주어지면, 표본공간이 A의 6개로 줄어든다. 그 안에서 합이 6인 경우는 (4,2) 하나뿐이므로, P(B|A) = 1/6이다.
P(A)나 P(B)는 원래 표본공간 S에서 정의된 확률이고, P(B|A)는 새로운 표본공간 A에서 B가 차지하는 확률이다. 이 관점의 전환이 조건부 확률의 본질이다.
조건부 확률의 정의를 변형하면 곱의 법칙(Multiplication Rule)을 얻는다.
해당 곱의 법칙을 semantic하게 직관적으로 이해해보면 이렇게 이해해볼 수 있다.
A사건과 B사건이 동시에 일어날 확률을 구하기 위해서는,
우선 A가 일어났을 때, B가 일어날 확률 이라고도 할 수 있을 것이다.
그렇다면 우선 A가 일어날 확률을 곱하고 거기에 A가 일어났을 때 B가 일어날 확률을 곱하면 되는 것이다.
또 반대로 우선 B가 일어날 확률에 B가 일어났을 때, A가 일어났을 확률을 곱해도 마찬가지로 A와 B가 동시에 일어날 확률을 구한 것이다.
세 사건으로 확장해도 마찬가지이다.
A와 B와 C가 동시에 일어날 확률을 구하기 위해서,
먼저 A가 일어날 확률을 구하고 A가 일어났을 때의 B의 확률을 구하고 그 이후에 A와 B가 일어났을 때, C의 확률을 구한 것이다.
공식이 복잡해 보일 수 있겠지만, 본질을 이해하면 확장하는 것은 그리 어렵지 않다.
곱의 법칙이, 여러 사건이 동시에 일어날 확률을 단계적으로(step-by-step) 계산할 수 있게 해준다.
비복원 추출 문제에서 특히 유용하게 사용될 수 있다.
Q) 남학생 20명, 여학생 30명 중에서 3명의 대표를 뽑을 때, 모두 여학생일 확률은?
A, B, C를 각각 첫 번째, 두 번째, 세 번째에 여학생을 뽑는 사건이라 하면,
첫 번째 뽑기가 두 번째 뽑기의 조건이 되고, 첫 번째와 두 번째가 세 번째의 조건이 되는 구조다.
Q) 김복남씨는 두 명의 자식이 있다. 그 중 한 명이 아들이라는 것을 알고 있을 때, 다른 한 명이 아들일 확률은? (단, 아들일 확률과 딸일 확률은 반반이다.)
해당 사건의 표본공간은 이다.
이때, 한 명이 아들임을 아는 순간에 표본공간은 로 축소하게 된다.
축소한 표본공간 에서, 또 다른 자식이 아들일 확률은 이다.
Q) 3개의 문 중 하나 뒤에 자동차가, 나머지 둘 뒤에 염소가 있다. 참가자가 문 하나를 고르면, 사회자가 나머지 두 문 중 염소가 있는 문 하나를 열어 보여준다. 이때 참가자는 선택을 바꿔야 할까?
직관적으로는 "남은 두 문이니 50:50 아닌가?"라고 생각하기 쉽다. 하지만 사회자가 문을 연 행위 자체가 조건이 된다. 선택을 바꾸지 않으면 당첨 확률은 1/3이고, 바꾸면 2/3이다.
중요한 것은, 사회자는 어디에 무엇이 있는지 안다는 것이다. 사회자가 문을 연 행위는 사회자가 가지고 있는 정보를 간접적으로 이용할 수 있게 되는 것이다.
반대로 만약, 사회자가 모르는 상태에서 문을 열었더니 염소가 나왔다 라고 한다면 선택을 바꾸든 바꾸지 않든 당첨 확률이 50:50으로 동일해진다.
왜 그런지는 뒤에서 전확률 법칙으로 깔끔하게 증명한다.
두 사건 A와 B에 대해, A가 일어났는지 여부가 B의 확률에 전혀 영향을 주지 않으면 독립(independent)이라고 한다.
하지만, 두 사건이 서로에게 영향을 주는지 주지 않는지, 어떻게 알 수 있는 것일까?
직관적으로 이해해보자.
만약 A가 일어난 것이 사건 B가 일어나는데 영향을 준다면,
사건 B가 일어날 확률과 A가 일어났을 때, 사건 B가 일어날 확률은 다를 수 밖에 없다.
반대로, 만약 사건 B가 일어날 확률과 A가 일어났을 때의 사건 B가 일어날 확률이 같다면,
사건 B가 일어나는데 사건 A가 영향을 주었다고 할 수 없을 것이다.
한 가지 의문점: 만약 우연히 같다면? 같을 수 있나?!!
결론부터 말하자면, 우연히 같아질 수 있다!
LLM의 답변)
하지만, 우연히 같아진 경우에도 두 사건은 수학적으로 완벽한 '독립'입니다.
우리가 흔히 헷갈리는 이유는 '인과적 독립'과 '통계적 독립'을 혼동하기 때문입니다. 확률론에서 말하는 독립은 두 사건 사이에 실제 물리적인 원인과 결과(인과관계)가 있는지를 전혀 따지지 않습니다.
오직 조건부 확률 수식인 가 성립하는지만을 봅니다. 즉, 어떠한 이유로든(우연이든 필연이든) A가 일어났다는 정보가 B의 확률값에 단 1%의 변화도 주지 못했다면, A는 B를 예측하는 데 수학적으로 아무런 쓸모가 없으므로 당당하게 '독립'이라고 정의합니다.
가 성립한다면, 두 사건 A와 B는 독립(Independent) 이라고 한다.
위의 독립의 정의를 조건부 확률의 정의에 따라 식을 변형하면, 아래와 같다.
미묘한 차이가 있을 수 있는데, 변형된 식은 가 0이든, 0이 아니든 가능한 정의이다.
여기까지가 교안과 교수님의 설명이다.
참고:
교안에서 "가 성립하면 두 사건은 독립이다"라고 설명하지만, 엄밀히 말해 이는 불완전한 정의입니다.
1. 논리적 포함관계의 한계 ("A이면 B이다"의 오류)
수학에서 완벽한 '정의'가 되려면 양쪽의 범위가 100% 일치하는 필요충분조건()이어야 합니다. 하지만 저 명제는 후건(독립)의 범위가 전건(조건부 확률 수식)보다 더 큰 단방향 명제입니다. 즉, 전건의 식을 만족하지 않으면서도 독립인 예외 상황이 필연적으로 존재하므로 엄밀한 정의가 될 수 없습니다.2. 조건부 확률의 수학적 모순 (분모 한계)
그 예외 상황이 바로 또는 일 때입니다. 조건부 확률 수식은 필연적으로 이라는 전제를 가집니다. 만약 절대 일어날 수 없는 사건()이라면 분모가 0이 되어 식 자체가 성립하지 않는 치명적인 모순이 발생합니다.결론:
확률이 0인 예외 상황까지 포함해, 언제나 들어맞는 유일하고 완벽한 독립의 정의는 오직 하나뿐입니다.
배반사건(mutually exclusive)은 , 즉 동시에 일어나지 않는 사건이다. 독립사건과는 완전히 다른 개념이다. 오히려 두 사건이 배반이면서 각각의 확률이 0이 아닌 경우, 두 사건은 반드시 종속이다. A가 일어났다는 사실이 B가 일어나지 않았음을 확정짓기 때문이다.
(1) 동전 두 번 던지기: 첫 번째 앞면(사건 A)과 두 번째 앞면(사건 B)은 독립이다. P(A) = 1/2, P(B) = 1/2, P(A ∩ B) = 1/4 = P(A)P(B).
(2) 흰 공 1개, 검은 공 1개에서 비복원 추출: 첫 번째 흰 공(사건 A)과 두 번째 흰 공(사건 B)은 종속이다. P(A) = 1/2, P(B) = 1/2이지만 P(A ∩ B) = 0 ≠ P(A)P(B). 첫 번째에 흰 공을 꺼내면 두 번째에 흰 공이 나올 수 없기 때문이다.
A와 B가 독립이면, 다음 쌍들도 모두 독립이다.

세 사건 A, B, C가 독립이려면 네 가지 조건을 모두 만족해야 한다.

쌍마다 독립이라고 해서 세 사건이 독립인 것은 아니다. 이 구분을 놓치면 다변량 문제에서 실수하기 쉽다.
제비뽑기에서 뽑는 순서에 따라 당첨 제비를 뽑을 확률이 다를까?
사다리타기에서 순서가 결과에 영향을 미칠까?
그렇지 않다. 전확률 법칙이 이를 설명할 수 있다.
P(B)를 직접 구하기 어려운 경우가 많다. 하지만 B에 영향을 주는 원인들을 나눠서 생각하면 계산이 쉬워지는 경우가 있다. 이것이 전확률 법칙(Law of Total Probability)의 존재 이유다.
사건들 이 표본공간 S의 분할을 이룬다는 것은 두 가지를 의미한다.
퍼즐 조각처럼, 각 조각은 겹치지 않고 모두 맞추면 전체가 된다.
가장 단순한 분할은 사건 A와 그 여사건 이다.
배반과 분할은 다른 것이다.
분할은 위에서 설명한 것처럼 두 가지 필요조건을 갖는다.
각각의 파트가 겹쳐지는 부분이 없어야 하고(배반이어야 하고),
조각을 전부 맞추면 전체가 되어야 한다.
분할이면 배반이지만,
배반이라고 해서 분할이라고 할 수는 없다.
기억하자.
전확률의 법칙은 분할을 이루는 사건에 대해서
타겟이 되는 사건보다 아는 것이 많을 때,
비로소 쓰임이 있는 방법이다.
여기서 중요한 것은 분할을 이뤄야한다는 것
(상호 배반 + 합쳐서 전체)

이 S의 분할일 때, 임의의 사건 B에 대해
두 사건이 분할을 이루는 가장 기본적인 경우는 다음과 같다.

전확률 법칙을 이용하면 몬티홀 문제를 깔끔하게 풀 수 있다.
와 는 표본공간을 분할한다.
선택을 바꾸는 전략의 당첨 확률은 2/3이다.
"원인별로 쪼개서 합산한다"는 전확률 법칙의 사고방식이 직관을 넘어서는 정확한 답을 줄 수 있다.
사건에 영향을 주는 또 다른 원인을 찾아보자.

Q) 제비뽑기에서 뽑는 순서에 따라 당첨 확률이 다를까?
흰 공 3개, 검은 공 2개가 든 주머니에서 A, B가 차례로 비복원 추출할 때, 두 번째 사람 B가 흰 공을 뽑을 확률 P(B)를 구해보자.
첫 번째에 흰 공을 뽑을 확률 는 이다.
그렇다면, 는??
또한 일 것 같은데.. 과연 그럴까?
A가 흰공을 뽑았을 것을 가정하고 B가 뽑을 확률과
A가 흰공을 못 뽑았을 것을 가정하고 B가 뽑을 확률을 더해서,
결과를 확인해보면 P(A)도 3/5, P(B)도 3/5.
순서에 관계없이 확률은 동일하다. 전확률 법칙이 이 사실을 수학적으로 보장해준다.
베이즈 정리: 결과로부터 원인을 추론한다
전확률 법칙은 "원인 → 결과" 방향으로 확률을 계산한다.
베이즈 정리(Bayes' Theorem)는 그 반대, "결과 → 원인" 방향의 추론을 가능하게 한다.
이 S의 분할이고, 사건 B가 관측되었을 때,
여기서 핵심적인 용어 두 가지가 등장한다.
베이즈 정리는 결국 "새로운 증거(B)를 관측했을 때, 기존의 믿음(사전확률)을 어떻게 수정해야 하는가"에 대한 공식이다.
Q) 아침에 일어나, 창 밖을 보았더니 땅이 젖어있다. 원인은 두 가지 중 하나라고 가정하자.
나는 이 둘 중에 어젯밤에 어떠한 원인 때문에 땅이 젖은 상태인 것인지 궁금한거야.
이때, 베이즈 정리를 활용해서 어떤 원인으로 인해
비가 온 것인지 베이즈 추정해볼 수 있다.
경험적으로 다음의 확률은 이미 알고 있다고 하자.(순방향)
사전확률(원인 자체의 발생 확률)
우도(Likelihood) (원인이 주어졌을 때, 바닥이 젖을 확률)
내가 진짜로 알고 싶은 것들은,
지난밤에 어떤 원인 때문에 오늘 아침 땅이 젖은 것인지가 궁금한거야.

아까 곱의 법칙에서 나왔었지만,
라는 것이
결국엔 A가 일어날 확률 에다가, A가 일어났을 때 B가 일어날 확률 곱한 것
또는 B가 일어날 확률 곱하기 B가 일어났을 때, A가 일어날 확률 곱한 것 이잖아.
이 둘 중에 하나 잖아.
그런데, 여기서 내가 생각하는 핵심은 이거야.
우리가 무엇을 알고 있고, 무엇을 알고 싶은지가 명확하면
곱사건을 어떻게 변형할 것인지가 당연해져.
알고 있는 것을 통해 모르는 것을 아는거야.
여기서 아는 것은 사전확률이고, 모르는 것이 사후확률인거지.
자 구해보자!

바닥이 젖어 있다는 증거를 본 이후에도, 스프링쿨러가 원인일 확률이 더 높아.
왜냐하면 애초에 스프링쿨러가 돌아갈 확률이 70%였거든.
비가 올 확률보다 훨씬 더 높았거든.
바닥을 젖게 만들 확률은 비가 스프링쿨러보다 조금 높았지만,
그 차이가 사전확률의 격차를 뒤집을 만큼은 아니었던 거지.
이것이 사실 어떻게 보면 베이즈 정리의 핵심적인 부분이라고 생각해.
원래의 가능성 그 사전확률이 낮으면, 사후확률도 확 올라가기는 쉽지 않은거야.
Q) 신종플루가 1000명 중 1명에게 발생한다. 검사의 민감도(sensitivity)는 99%이고, 건강한 사람의 2%에서도 양성 반응(false positive)이 나온다. 양성 반응이 나왔을 때 실제로 감염되었을 확률은?
약 4.7%다. 양성 반응이 나왔는데도 실제 감염 확률은 5% 미만이다. 유병률(base rate)이 극도로 낮은 질병에서는 검사의 정확도가 높아도 양성예측도가 낮을 수 있다는 것을 베이즈 정리가 보여준다. 이 현상을 "기저율 무시(base rate neglect)"라고 부르며, 의료 통계에서 매우 중요한 개념이다.
이 글에서 다룬 내용의 배경에는 확률을 바라보는 두 가지 관점이 있다.
예를 하나 들어서 이해해보자.


결국에 빈도주의자들의 주장은
그냥 "많이 시운전을 해봐라" 이거다.
하지만 이는 현실적으로 어렵다.
확보한 데이터가 주어지지 않으면 통계적 추정은 불가능하다.

베이즈주의자(Bayesian)는 확률을 "사건에 대한 주관적 확신의 정도"로 해석한다. 사전확률이라는 초기 믿음에서 출발하여, 새로운 데이터가 관측될 때마다 베이즈 정리를 적용해 믿음을 업데이트한다. 데이터가 부족하거나 전혀 없어도 추정이 가능하다는 장점이 있지만, 사전확률의 선택이 주관적이라는 비판을 받기도 한다.

하지만 두 접근 모두, 데이터가 충분히 쌓이면 결국 같은 결론에 수렴한다. 베이즈 정리의 반복 적용은 사전확률의 영향을 점점 희석시키고, 데이터가 말하는 바를 따라가게 된다. 이것이 베이즈주의적 수렴(Bayesian Convergence)이다.
| 개념 | 핵심 질문 | 방향 |
|---|---|---|
| 조건부 확률 | 정보가 주어졌을 때 확률이 어떻게 변하는가? | 축소된 표본공간에서의 확률 |
| 독립사건 | 정보가 확률을 바꾸지 않는 경우는? | P(B|A) = P(B) |
| 전확률 법칙 | 복잡한 사건의 확률을 어떻게 분해하는가? | 원인 → 결과 (순방향) |
| 베이즈 정리 | 결과를 보고 원인을 어떻게 추론하는가? | 결과 → 원인 (역방향) |
확률을 처음 배울 때는 "해당 경우의 수 나누기 전체 경우의 수"로 많이 풀었다. 하지만 현실에서는 대부분, 이미 알고 있는 정보가 존재하는 상태에서 판단을 내려야 한다. 조건부 확률은 바로 이 지점에서 출발한다.
조건부 확률부터 베이즈 정리까지 네 개의 개념은 모두 "표본공간의 분할과 축소"라는 하나의 원리에서 파생된다. 조건부 확률이 가장 기초이고, 독립사건은 그 특수한 경우이며, 전확률 법칙은 분할을 이용한 순방향 계산이고, 베이즈 정리는 그 역방향이다. 오늘 정리한 내용들은 결국 표본공간이 축소되거나 분할될 때, 확률은 어떻게 다시 계산하는가? 라는 하나의 질문에 대한 답으로 귀결될 수도 있겠다.
아직 확률론의 초입이지만, ML/DL에서 자주 접하는 likelihood, posterior, prior 같은 개념을 이해하는데 오늘 공부한 내용들이 필수적이라고 생각된다.
이전에 베이즈 정리 배웠을 때 이해가 잘 안됐었는데, 예시도 그렇고 내용이 풍부해서 이해하는 데에 도움이 많이 됐네요 감사합니다~!