확률(probability)은 어떤 사건이 발생할 가능성의 정도를 0~1사이의 실수로 표현한 척도이다.
예를 들어, 내일 비가 올 확률이 40%라고 하면, 내일 비가 올지 안 올지 정확하지는 않으나 40%의 가능성으로 비가 올 것 같다는 의미이다. 통계학은 불확실한 상황을 전제로 하기 때문에, 불확실의 정도를 측정하는 확률은 핵심적인 부분이 될 수 밖에 없다.
1. 확률실험
동전 던지기 실험을 하면 앞면 혹은 뒷면의 결과를 얻게 되고, 주사위 던지기 실험을 하면 윗면에 점이 1개에서 6개 중 하나를 얻게 된다. 이 실험은 화학 실험과 달리 실험 결과를 사전에 알 수 없다는 공통점을 갖고 있다. 다시 말해 동전을 던지기 전에는 앞면과 뒷면 중 어떤 결과가 나올지 모른다. 그러나 앞면이나 뒷면이 나올 확률은 존재한다. 이처럼 결과가 확률적으로 얻어지는 실험을 확률실험(chance experiment, random experiment)이라고 한다.
확률실험: 실험 결과가 확률적으로 나타나는 실험
2. 표본공간
표본공간(sample space)은 확률실험에서 얻을 수 있는 모든 가능한 결과(outcome)의 집합으로 영문 대문자 로 표기한다. 예를 들어, 동전던지기 실험을 하면 앞면이나 뒷면이 나오므로 표본공간 ={앞면, 뒷면}이 된다.
표본공간: 확률실험에서 얻을 수 있는 모든 가능한 결과의 집합
확률 실험의 결과를 하나하나 열거하지 못하는 때가 있다. 예를 들어 연간 강수량의 경우, 0mm 이상인 임의의 실수를 취할 수 있으므로, 일일이 열거하는 것은 불가능하다. 이러한 경우에는 구간으로 표본공간을 표현한다. 연간 강수량의 경우 표본공간은 =[0, ) 이다.
3. 사건
표본공간의 부분집합을 사건(event) 혹은 사상이라 한다. 주사위 던지기의 예에서 '2이하를 얻는' 사건이란 1 또는 2가 나오는 경우로 표본공간인 S={1, 2, 3, 4, 5, 6} 의 부분집합이며, 결과인 1과 2의 집합이다.
사건: 표본공간의 부분집합으로 일정한 속성을 지닌 결과의 집합이다.
4. 집합연산
주요 집합 연산은 다음과 같다.
4.1 벤다이어그램
확률의 이해를 돕는 데 빼놓을 수 없는 도구가 벤다이어그램(Venn diagram)이다. 아래 그림은 표본공간 S, 사건 A, 사건 B가 표시된 벤다이어그램이다. 이 도표를 사용하면 사건이나 집합 간의 관계를 시각적으로 파악할 수 있다.
4.2 상호배타적 사건, 전체를 이루는 사건
주사위를 한 번 던질 때 짝수가 나오는 사건을 , 홀수가 나오는 사건을 라 하자. 두 사건에 공통적으로 속하는 원소는 존재하지 않으므로, 이다. 이 경우 사건 와 사건 를 상호배타적(mutually exclusive) 사건이라 한다. 또 다른 특수한 경우로 두 사건의 합집합이 표본공간 전체 S를 구성하는 예를 들 수 있다. 주사위를 한 번 던질 때 짝수가 나오는 사건 와 홀수가 나오는 사건 의 합집합은 {1, 2, 3, 4, 5, 6} 으로 표본공간 와 동일하다. 즉, 이다. 이 때 와 를 전체를 이루는 사건(exhaustive)이라 부른다.
상호배타적: 두 사건 와 가 이면, 두 사건 와 는 상호배타적이다.
전체를 이루는: 두 사건 와 가 이면, 두 사건 와 는 전체를 이룬다.
참고) 사건 가 상호배타적이면 이다. 그러나 라고 해서 가 서로 상호배타적인 것은 아니다.
확률은 다음과 같이 네 가지 개념으로 정의할 수 있다.
1. 고전적 확률
주사위를 던져 2 이하를 얻게 될 확률은 1/3이다. 주사위 던지기에서 얻을 수 있는 결과는 {1, 2, ... , 6} 의 6가지이고, 이 중에서 2이하의 결과는 {1, 2}의 두 가지 경우이므로 확률은 1/3이다. 이런 논리는 라플라스가 정의한 고전적 확률 개념에 부합한다.
고전적 확률(classical probability)은 원소의 발생 가능성이 동일하고 상호배타적인 경우에 적용할 수 있다.
고전적 확률:
: 사건 A가 발생할 확률
: 표본공간의 원소의 수 즉,
: 사건 의 원소 수 즉,
2. 경험적 확률
경험적 확률(empirical probability)이란 과거의 통계자료나 실험이라는 경험을 통해 구한 확률을 말한다. 예를 들어, 지금까지 생산된 제품 100,000개에 대해 800개의 불량품이 나왔다면 불량품을 생산할 확률은 0.8%이며, 이를 경험적 확률이라고 한다.
3. 주관적 확률
고전적 확률을 계산하지 못할 뿐만 아니라 실험의 반복시행도 불가능하여 경험적 확률조차 구할 수 없는 경우가 있다. 교량의 붕괴 가능성이라든지 특정 태양계의 생물 존재 가능성 등이 그러한 경우에 속한다. 이와 같은 경우에 의사결정자의 지식, 정보 및 경험에 의거한 주관적 평가에 의해 결정되는데 이와 같은 확률을 주관적 확률(subjective probability)이라 한다.
4. 공리론적 확률
콜모고로프(Kolmogorov, 1903~1987)는 확률을 다음과 같은 공리(axiom)를 만족하는 함수로 정의하였다. 이 방법은 현대 확률론의 기초가 되었다.
확률의 공리적 정의
다음의 조건을 만족하는 함수를 확률이라 한다.
1) 표본공간 에서 임의의 사건 에 대해
2)
3) 상호배타적인 사건 에 대해
1. 경우의 수
경우의 수(number of cases)란 어떤 사건이 일어날 수 있는 경우의 횟수를 말한다.
1.1 배열을 이용한 경우의 수 계산
를 순서대로 배열한다면 몇 가지의 경우가 있을까?
첫 번째에 놓을 수 있는 글자는 3개 중 하나이다. 두 번째 위치에 놓을 수 있는 글자는 2개 중 하나이다. 첫 번째와 두 번째 위치에 글자가 모두 결정되었으므로 세 번째 위치에 놓을 수 있는 글자는 이미 정해져 있다. 따라서 나올 수 있는 모든 배열은 {, , , , , } 총 6가지가 된다. 문제를 일반화하여 글자 개를 순서대로 배열하는 경우, 총 경우의 수는 , 즉 이 된다.
1.2 순열과 조합을 이용한 경우의 수 계산
세 개의 알파벳 중에서 2개를 선택하는 경우의 수를 생각해 보자. 이 때 (), ()라는 배열을 2개의 경우로 간주할 지 또는 1개의 경우로 간주할지에 따라 경우의 수가 달라진다. 배열 순서를 감안한다면 (), ()는 2개의 경우로 간주되고, 배열 순서를 무시한다면 (), () 는 1개의 경우로 간주된다. 다음의 표에서 볼 수 있는 것처럼 배열 순서를 감안한다면 경우의 수는 6이고, 배열 순서를 무시한다면 경우의 수는 3이다.
알파벳 3개 중에서 2개를 선택하는 경우의 수
배열 순서를 감안할 때 | 배열 순서를 무시할 때 |
---|---|
(), () | () |
(), () | () |
(), () | () |
경우의 수 = 6 | 경우의 수 = 3 |
배열 순서가 감안될 때의 경우의 수를 순열(permutation), 배열 순서가 무시될 때의 경우의 수를 조합(combination)이라 한다. 개의 대상에서 개를 선택할 때, 순열의 수와 조합의 수는 다음과 같다.
순열의 수:
조합의 수:
이 공식을 이용하여 세 개의 알파벳 중에서 2개를 선택하는 경우의 수를 구해보자. 배열 순서를 감안한 경우의 수는 이고, 배열 순서를 무시한 경우의 수는 이다.
1.3 경우의 수를 이용한 확률 계산
특정한 사건 가 발생할 확률은 다음과 같이 계산할 수 있다.
: 사건 가 발생하는 경우의 수
: 발생 가능한 모든 경우의 수
각 경우의 발생 가능성이 동일하고 상호배타적인 경우에 이 공식을 사용할 수 있다.
이 공식은 고전적 확률 공식과 유사하다.
예를 들어, 3개의 흰색 공과 1개의 검은색 공이 들어 있는 상자에서 한 번에 1개씩 2개를 꺼낼 때, 1개의 흰색 공과 1개의 검은색 공이 나올 확률을 계산해보자. 한 번에 1개씩 2개를 꺼내기 때문에 발생 가능한 모든 경우의 수는 4 x 3 = 12 가 된다. 이 중에서 1개의 흰색 공과 1개의 검은색 공이 나오는 경우는 (흰색, 검은색), (검은색, 흰색) 이렇게 두 경우로 나눌 수 있다. 먼저 (흰색, 검은색) 이 나오는 경우의 수는 3 x 1 = 3 이고, (검은색, 흰색)이 나오는 경우의 수는 1 x 3 = 3 이 된다. 따라서 이 된다.
다음으로 이 상자에서 꺼낸 첫 번째 공이 흰색이란 전제하에 두 번째 공이 검은색일 확률을 계산해보자. 첫 번째 공이 흰색이 되는 경우의 수는 3이다. 이 중에서 두 번째 공이 검은색이 되는 경우의 수는 1이다. 따라서 확률 이 된다.
확률 계산에 유용한 몇 가지 법칙을 알아보자.
1. 확률의 덧셈법칙
가장 기본적인 법칙 중 하나는 확률의 덧셈법칙이다.
이 법칙은 두 사건 중 최소 하나가 발생할 확률 계산에 적용된다.
벤다이어그램을 사용하면 쉽게 이해할 수 있다.
확률의 덧셈법칙:
2. 조건부 확률과 확률의 곱셈법칙
어떤 조건 하에서의 확률을 조건부 확률(conditional probability)이라 부른다. 와 같은 형태로 표기하며, 사건 가 발생한다는 조건하에서 사건 가 발생할 확률이라 읽는다. '사건 중에서 사건 의 비율'로 해석하는 것이 보다 쉽게 이해하는 요령이다.
조건부 확률 와 비조건확률 의 개념 차이를 쉽게 이해하려면,
- 는 중에서 의 비율
- 는 전체 중에서 의 비율, 즉 라고 생각하면 된다.
가 ' 중에서 의 비율'이므로, 조건부 확률 의 계산 공식은 다음과 같다.
조건부 확률의 계산 공식:
모대학의 신입생을 조사하니 남학생의 비율은 60%, 수도권 출신자 비율은 40%, 수도권 출신 남학생 비율은 30%이다. 임의로 선택된 학생이 남자일 때, 이 학생이 비수도권 출신일 확률은 얼마일까?
신입생이 수도권 출신인 사건을 , 신입생이 남학생인 사건을 라 할 때, =0.4, =0.6, =0.3이다. 임의로 선택된 학생이 남자일 때, 이 학생이 비수도권 출신일 확률은 이다. 따라서 이다.
3. 독립과 종속
한 사건의 발생이 다른 사건의 발생확률에 영향을 주는 경우도 있고, 그렇지 않은 경우도 있다. 주사위를 두 번 던지는 경우, 두 번째 던질 때 나오는 수는 첫 번째 던지는 숫자로부터 영향을 받지 않는다. 반면에 공장에 화재가 나느냐의 여부는 해당 회사의 이익이 증가할 것인가에 영향을 준다. 전자와 같이 한 사건이 다른 사건의 확률에 영향을 주지 않는 경우를 독립(independent)라 하고, 후자와 같이 다른 사건의 확률에 영향을 주는 경우를 종속(dependent)이라 한다.
사건의 독립과 종속
또는 이면, 사건 A와 B는 독립이다. 반면에 등호가 성립하지 않으면 두 사건은 종속이다.
두 사건 와 가 독립일 때, 이다.
동전 하나와 주사위 하나를 던질 때, 동전이 앞면이 나오고 주사위는 3이 나올 확률을 구해보자.
동전이 앞면이 나올 확률 , 주사위 3이 나올 확률 이다.
두 사건 가 서로 독립이므로 이다.
4. 상호배타적과 독립
상호배타적과 독립을 비슷한 개념으로 오해할 수 있다.
예를 들어, 검은색 공 5개, 흰색 공 4개가 들어있는 상자가 있다. 이 상자에서 1개의 공을 꺼낼 때 검은 색 공이 나올 사건을 , 흰색 공이 나올 사건을 라 하자. 사건 와 사건 의 확률은 각각 , 이다. 이므로 두 사건은 상호배타적이다. 하지만 로 독립이 아니다.
상호배타적이란 두 사건이 함께 일어날 확률이 0이라는 의미이고,
독립은 한 사건이 다른 사건의 확률에 영향을 주지 않는다는 의미이다. 즉,
5. 기타 확률법칙
앞에서 설명한 것 외에 다음과 같은 법칙이 있다.
1. 전확률의 법칙
어느 회사는 초록색 공장과 흰색 공장을 가지고 있다. 초록색 공장의 불량률은 20%이고, 흰색 공장의 불량률은 50%이다. 초록색 공장에서의 생산량이 전체 생산량의 60%라 할 때, 회사에서 생산한 전체 제품의 불량률을 구하려면 어떻게 해야 할까?
어떤 제품이 초록색 공장에서 생산되는 사건을 , 어떤 제품이 흰색 공장에서 생산되는 사건을 라 하자. 그러면 , 이다. 불량이 나올 사건을 라 할 때, 초록색 공장의 불량률 , 흰색 공장의 불량률 이다. 따라서 가 된다.
만약, 공장이 초록색, 흰색, 파란색 세 개라면, 전체 제품의 불량률은 의 식을 통해 얻어낼 수 있다.
이 법칙을 일반화하면 다음과 같다.
전확률의 법칙
가 상호배타적이고 전체를 이루는 사건이라면, P(A)는 다음과 같이 표현된다.
이해를 위해 아래 그림을 하나 넣었다.
2.베이즈 정리
상호배타적이고 전체를 이루는 사건 에 대하여, 사건 가 일어날 확률 는 임을 배웠다. 즉, 임의의 에 대하여 사전 확률 와 조건부 확률 를 알고 있다면 를 구할 수 있다. 임의의 에 대하여 사전 확률 와 조건부 확률 를 알고 있다면 외에도 전제 조건이 뒤바뀐 도 구할 수 있다. 이 때, 이용되는 공식이 베이즈정리(Bayes' theorem)이다.
는 정의상 이고, 조건부 확률을 이용하면 가 얻어진다. 이 때, 를 구하기 위해 위의 전확률의 법칙을 이용하면 다음과 같이 정리할 수 있다.
베이즈 정리
가 상호배타적이고 전체를 이루는 사건이라면,
어느 환자가 약 또는 둘 중 하나를 복용하고 사망하였다. FDA(미국 식품의약국)에 따르면 이런 종류의 환자가 약 를 복용할 때 사망에 이를 확률은 0.1이며, 약 를 복용할 때 사망에 이를 확률은 0.05라 한다. 이 환자가 약 와 를 복용할 확률은 각각 20%와 80%이다. 이 죽은 환자가 약 와 를 복용했을 확률은 각각 얼마일까?
약 와 를 복용할 확률을 , 라 하고, 환자가 사망할 확률을 라 하자. 약 를 복용하고 사망할 확률이 0.1이므로 이고, 약 를 복용하고 사망할 확률이 0.05미으로 이다. 우리의 관심사는 죽은 환자가 약 와 를 복용했을 확률이므로, 이를 조건부 확률로 표현하면 각각 과 가 된다.
먼저 를 구해보자.
주어진 확률 중에 사전 확률 와 전제 조건이 바뀐 가 있으므로, 베이즈 정리를 이용할 수 있다.
이고, 는 전확률의 법칙으로 얻어낼 수 있다.
따라서, 이 된다.
같은 방식으로 이다.