세상은 너무 복잡하다. 대부분의 확률 시행은 많은 결과들을 내포하고 있어 쉽게 분석하기가 힘들다. 만약 시행의 결과들 중 일부만 떼어서 관찰할 수 있다면 분석의 복잡성을 낮추는 데 용이할 것이다.
예를 들어 수학과 영어 점수를 측정하는 시행이 있다고 하자. 이미 수학 점수가 80점 이상이라고 결과가 나왔다면, 영어 점수를 측정하는 데 있어 수학 점수가 80점 미만인 케이스는 고려할 필요가 없어진다. 더 이상 우리가 쓸모있다고 생각하는 정보가 아니기 때문이다.
따라서 쓸모없는 정보를 덜어내면, "수학 점수가 80점 이상인 사람의 영어 점수"의 시행 결과만 관찰하면 되므로 시행의 결과의 복잡성이 줄어들고, 반드시 필요한 정보만 이용할 수 있게 된다. 다르게 말하면 시행의 표본 공간을 "수학 점수 전체, 영어 점수 전체"에서 "수학 점수 80점 이상, 영어 점수 전체"로 줄인 셈이 된다.
이렇게 시행의 결과에 대한 사전 정보를 알고 있거나 / 알고 있다고 가정하고, 표본 공간을 축소하는 테크닉은 확률론과 통계학에서 중심적인 역할을 한다. 모든 결과의 케이스를 고려할 필요 없이 우리가 원하는 결과가 나온 사례만 확률의 계산에 고려하면 되기 때문이다.
한가지 더 고려할 것은, 표본 공간을 축소했을 때의 새로운 표본 공간은 원래 표본 공간을 기준으로는 사건이라는 점이다. 왜냐하면 표본 공간을 축소한다는 것은 표본 공간의 부분집합을 새로운 표본 공간으로 이용하겠다는 것인데, 이는 정의상 의 사건이기 때문이다.
위의 예시에서도 "수학 점수 80점 이상, 영어 점수 전체"는 원래 표본 공간인 "수학 점수 전체, 영어 점수 전체"의 부분집합으로 볼 수 있다. 따라서 이는 사건이고, 우리는 시행의 결과가 반드시 이 사건 안에서 일어난다고 전제하려는 것이다.
논리적 오류 없이 표본 공간을 축소하려면 조건부 확률이라는 확률론의 개념이 필요하다. 조건이라는 이름에서도 알 수 있듯이 원래의 시행과는 다른 표본 공간이 주어졌을 때, 각 사건들의 확률을 계산하는 데 도움을 주는 개념이다. (엄밀히 말하면 원래의 시행도 를 이용한 조건부 확률로 표현할 수 있다.)
표본 공간을 교체했으니 새로운 표본 공간 안의 사건들에 대한 확률도 업데이트를 해줘야 한다. 확률을 업데이트 한다는 것은 곧 새로운 확률 함수가 필요하다는 것을 의미한다.
표본 공간 의 부분 집합(사건) 를 새로운 표본 공간으로 생각하자. 이 때 의 임의의 사건 의 확률을 다음과 같이 정의한다.
이 정의는 새롭고 언뜻 보기에는 비직관적으로 보인다. 각 요소가 어떤 것을 의미하는지 생각해 보자.
는 A가 표본 공간 일 때, 사건 가 일어날 확률을 의미한다. 단 표본 공간이 바뀌었다고 해서 B도 바뀌는 것은 아니다. 그저 A를 표본 공간으로 설정 했을 때, B가 일어날 확률을 계산하고자 하는 것이다.
원래의 표본 공간을 이용했을 때 B가 발생할 확률 는 사실 와 동일한 의미다. 가 표본 공간일 때 B가 발생할 확률이라는 의미다. 조건부 확률에서는 표본 공간을 바꾸기 때문에 B가 일어날 확률을 재정의 하는 것이다.
중요한 것은 새로 정의되는 표본 공간은 사건임을 기억하는 것이다. 따라서 와 같은 조금 이상해 보이는 확률도 충분히 정의가 가능하다. 왜냐하면 도 의 사건이기 때문이다.
좌변이 조건부 확률 함수의 표기법을 의미한다면 우변은 실질적인 계산을 담당한다. 우리가 아는 것은 확률 시행의 원래 표본 공간인 에 정의된 확률 함수와 이를 통해 계산된 사건의 확률들이다. 따라서 이들을 이용해 새로운 표본 공간()에 대한 새로운 사건의 확률들을() 계산해야 한다. 우변은 이를 담당한다.
그렇다면 왜 굳이 우변이 이런 모양일까? 먼저 분자가 저 모양인 이유를 알아보자.
사건 A를 표본 공간으로 설정했다는 것은 "사건 A는 반드시 발생한다"는 것을 내포한다. 따라서 사건 집합 A에 속하지 않는 결과들은 어떤 일이 있어도 발생할 수 없다.
그러나 사건 B는 반드시 사건 A 내부에 있는 것이 아니라, 그저 의 사건이면 무엇이든 될 수 있다. 따라서 A에는 없는 원소가 B에는 있을 수도 있다. A가 표본 공간이므로 이런 원소들은 의미가 없어진다. 왜냐하면 애초에 발생할 수가 없는 결과들이기 때문이다. 따라서 실질적으로 의미있는 B의 원소들은 가 된다. 즉 다음이 성립한다.
이제 분모에 대해 알아보자.
분모는 확률을 표준화하는 역할을 한다. 왜냐하면 기본적으로 는 표본 공간이 일 때를 기준으로 한 확률이다. 따라서 이 확률을 가 표본 공간일 때를 기준으로 바꾸어야 한다.
이 때 는 전체 가 발생할 확률 중에, 가 발생할 확률을 의미한다. 이는 교집합의 확률을 A의 확률로 표준화한다고 생각할 수 있다. 이는 A가 표본 공간일 때 가 일어날 확률이라는 조건부 확률의 정의에 부합한다.
물론 새로운 확률 함수도 확률 공리를 반드시 만족해야 한다. 따라서 조건부 확률 함수는 다음을 만족한다.
조건부 확률과 결합 확률()은 흔히 혼동되는 주제다. 두 확률 모두 두 개의 사건을 이용하고, 두 확률이 관계성이 있기 때문에 동시에 쓰이는 상황이 많기 때문이다.
조건부 확률과 결합 확률의 구분은 각 확률의 표본 공간과 이미 알고 있는 정보를 고려하면 이해할 수 있다.
조건부 확률은 "시행 이전에 어떤 정보가 주어져서 / 어떤 가정에 의해 표본 공간을 수정했을 때" 어떤 사건이 일어날 확률이다.
따라서 조건부 확률을 계산할 때, 표본 공간은 원래 시행의 가 아니라 수정된 로 생각해야 한다.
예를 들어 혈압을 측정하는 실험에서 로 표본 공간을 정의했다고 하자. 이 때 "남자 피실험자들 중 혈압이 140 < p < 170 확률"이 관심 대상이라면, 우리는 "피실험자는 남자"라는 가정을 하고 확률을 계산해야 한다.
따라서 이런 경우 으로 사건을 정의하고, 이를 새로운 표본 공간으로 이용할 수 있다.
그리고 위 확률은 로 계산할 수 있을 것이다.
그러나 동일한 실험에 대해 시각을 조금 달리해보자. 이제 우리가 궁금한 것은 "피실험자들 중 남자이고 혈압이 0 < p <200일 확률"이다. 언뜻 보면 위와 다를 게 없어보이지만, 이번 예시에서는 피실험자가 남자라는 가정이 어디에도 없다. 이미 알고 있는 정보가 없다는 것이다.
따라서 이런 경우에는 피실험자가 여자인 사건도 발생할 수 있기 때문에, 조건부 확률이 아니라 결합 확률을 이용해야 한다.
조건부 확률은 이미 "표본 공간을 축소한 상황"에서 A에 대한 확률을 구한 것이고, 결합 확률은 "표본 공간이 인 상황"에서 A에 대한 확률을 구한 것이다.
어떤 상황 하에서는, 사건의 조건부 확률과 원래 확률이 같은 경우도 있다.
즉 새로운 표본 공간이 사건 이고, 어떤 사건 에 대해
를 만족한다면, 사건 A와 사건 B는 독립이라고 한다.
그러나 P(A)가 0이라면 위 확률이 정의되지 않으므로, 사건의 독립성을 다음과 같이 정의한다.
사건의 독립성은 A가 일어났다는 사실/정보가 B의 발생 확률에 영향을 주지 않는다는 것을 의미한다.
그러나 사건의 독립이 사건의 배반을 의미하는 것은 아니다. 반대로 사건의 배반이 사건의 독립을 의미하는 것도 아니다.
예를 들어 두 사건 에 대해 라고 하자. 그렇다면 가 된다.
이 때 이므로 A와 B는 독립이다. 그러나 이므로 두 사건은 배반이 아니다.
두 사건 에 대해 라고 하자. 그렇다면 두 사건은 배반이지만 이므로 독립이 아니다.