확률의 해석과 확률 공리

STATS·2023년 6월 15일
0

수리통계학

목록 보기
2/40

사건과 확률

확률론에서는 사건에 확률을 부여하고, 이를 통해 사건 간의 관계성을 파악하거나 더 발전된 확률론의 개념으로 연결한다.

사건의 언어적인 정의 측면에서 보자면, 사건에 확률을 부여하는 것은 굉장히 직관적이다.
"내일 비가 올 확률이 20%야"라는 일상적인 말은 내일 비가 오는 사건에 0.2의 확률을 부여한 것과 동일하기 때문이다. 혹은 "동전 앞 면이 나올 확률과 뒷 면이 나올 확률은 같아"라는 말은 동전이 앞 면이 나오는 사건에 0.5의 확률을 부여하고, 이의 여사건 혹은 뒷 면이 나오는 사건에 0.5의 확률을 부여한다는 것이기 때문이다.

또한 앞서 사건을 표본 공간의 부분 집합으로 정의했다. 따라서 수학적으로는 확률을 표본 공간의 모든 부분 집합에 부여한다고 할 수 있다. 각 표본 공간의 부분 집합은 모두 사건이므로 각각이 확률을 가지기 때문이다. 이는 후에 다룰 확률 공리의 기반이 되는 내용이므로 기억할 필요가 있다.

확률의 해석

확률이라는 개념은 실생활에서 매우 자주 듣고 쓰면서도, 정작 엄밀하게 표현하기는 힘들다. 이는 확률의 해석이 매우 자의적이고 정의에 따라, 상황에 따라 달라지기 때문이다.

예를 들어 유명한 확률의 해석은 두가지 방향성이 있는데, 빈도주의와 베이즈 주의가 그 것이다.

먼저 빈도주의는 확률을 동일한 상황에서 여러 번 확률 시행을 반복했을 때, 시행 횟수 대비 어떤 사건이 일어나는 횟수의 비로 정의한다.

이는 시행 횟수가 적을 때는 확률과 실제 비율이 불일치할 가능성이 높지만, 시행 횟수가 늘어날수록 실제 비율이 이론적인 확률로 수렴할 것을 기대한다. 빈도주의의 해석은 주사위 던지기, 동전 던지기의 결과 등 우리의 직관에 부합한다는 점에서 유용하다.

베이즈주의에서는 확률을 어떤 사건의 발생에 대한 믿음의 정도로 정의한다.

예를 들어 내일 비가 거의 오지 않을 것 같을 때, 우리는 흔히 "내일 비가 올 확률은 매우 적어"라고 말한다. 이는 내일 비가 오는 사건이 발생하지 않을 것이라는 우리의 믿음에서 비롯된다.

또한 사건의 발생에 관한 새로운 정보가 들어왔을 때, 사건의 발생에 대한 확률을 조정하여 믿음의 정도를 업데이트한다는 직관적인 해석을 내놓는다.

베이즈주의의 해석은 확률의 해석 뿐만 아니라 베이즈 정리 등 확률론의 후속 개념에서도 자주 등장하고, 심리학, 인지과학 등에서도 자주 쓰이는 등 빈도주의와는 다른 측면에서 실용성을 가진다.

확률 공리

빈도주의와 베이즈주의 중 어떤 해석 방식을 사용하든, 정량적 개념인 확률을 논리적이고 엄밀하게 다루기 위해서는 수학적 구조가 필요하다. 확률론에서는 일련의 규칙인 확률 공리를 이용해 확률에 대한 논의를 쌓아나간다.

주의할 점은 확률 공리는 확률을 해석하는 방식이 아니라는 점이다. 단지 확률을 정량적으로 다룰 수 있는 틀을 제공할 뿐, 이 구조를 통해 도출되는 결과의 해석은 어떤 해석 방식을 사용하느냐에 따라 주관적으로 달라질 수 있다.

확률 함수(Probability set function)

앞서 확률은 개별 사건에 부여한다고 정의했다. 이 때 확률 함수는 주어진 표본 공간의 각 사건에 확률을 부여하는 규칙의 역할을 한다. 즉 확률 함수는 입력으로 사건을 받아서, 일련의 규칙을 통해 계산을 거쳐, 출력으로 0과 1 사이의 실수를 내보내는 역할을 한다.

다만 아무 함수나 표본 공간에 대한 확률 함수가 될 수 있는 것은 아니다. 사건을 받아 실수를 내보내는 함수 중 일부만 확률 함수가 될 수 있는데, 그 조건을 확률 공리라고 한다.

확률 공리

F:F[0,1]F:\mathcal{F} \rightarrow [0, 1]가 아래 세가지 조건을 만족하면 FFΩ\Omega의 확률 함수이다.

  1. 모든 AFA \in \mathcal{F}에 대해, 0P(A)10 \le P(A) \le 1을 만족한다.
  2. 표본 공간 Ω\Omega에 대한 확률 P(ΩP(\Omega) = 1을 만족한다.
  3. 모든 Ai,AjFA_i, A_j \in \mathcal{F}에 대해 AiAj=A_i \cap A_j = \empty이면 P(AiAj)=P(Ai)+P(Aj)P(A_i \cup A_j) = P(A_i) + P(A_j)를 만족한다.

전제

F:F[0,1]F:\mathcal{F} \rightarrow [0, 1]를 살펴보자.

F\mathcal{F} : σfield\sigma-field 라고 부르는 F\mathcal{F}는 표본 공간의 가능한 모든 부분 집합을 모아놓은 집합이다.
즉 주어진 표본 공간 Ω\Omega에 대해 모든 사건을 모아놓은 집합이다.

예를 들어 다음과 같은 이번 학기 학점의 표본 공간이 있다고 하자.

Ω={A,B,F}\Omega = \{A, B, F\}

이 때 Ω\Omegaσfield\sigma-field는 다음과 같이 정의 된다.

F={,{A},{B},{F},{A,B},{A,F},{B,F},{A,B,F}}\mathcal{F} = \{\empty, \{A\}, \{B\}, \{F\}, \{A, B\}, \{A, F\}, \{B, F\}, \{A, B, F\}\}

"학점이 B 이상인 경우"는 {A,B}\{A, B\}에 해당한다. "학점이 B 이하인 경우"는 {B,F}\{B, F\}에 해당한다.
따라서 우리가 Ω\Omega에서 생각할 수 있는 모든 사건은 F\mathcal{F}에 존재하게 된다.

이런 집합을 사용하는 이유는 사건마다 확률이 할당되는데, 모든 사건을 모아놓으면 오류 없이 모든 사건에 확률을 할당할 수 있기 때문이다.

[0,1]:[0, 1] : 확률 함수의 출력 값은 어떤 사건의 확률이므로 항상 0과 1 사이의 실수다.

F:F[0,1]:F:\mathcal{F} \rightarrow [0, 1] : 따라서 이를 종합하면 확률 함수의 전제는
정의역이 전체 사건 집합이고, 공역이 0과 1 사이의 실수인 함수라고 할 수 있다.

조건 1

확률은 반드시 0과 1을 포함한 사이의 값만을 가진다. 어떤 사건이 1.5의 확률을 가지거나 -0.4의 확률을 가질 수는 없다. 확률에는 이렇게 하한과 상한이 존재하기 때문에 확률의 상대적인 비교나 직관적인 이해가 쉽다는 장점이 있다.

조건 2

사건은 표본공간의 부분집합이기 때문에, 표본 공간 자신도 하나의 사건으로 간주할 수 있다.

직관적으로, 표본 공간은 모든 시행의 결과를 담고 있기 때문에 어떤 결과든 간에 이 사건은 반드시 발생하고, 따라서 P(Ω)P(\Omega) = 1으로 받아들일 수 있다.

조건 3

AiAj=:A_i \cap A_j = \empty : 이는 사건 AiA_iAjA_j가 공통적으로 가지는 원소가 없다는 것을 의미한다.

P(AiAj)=P(Ai)+P(Aj):P(A_i \cup A_j) = P(A_i) + P(A_j) : 위와 같은 상황에서 AiAjA_i \cup A_jAiA_iAjA_j 각각의 모든 원소를 모은 것이다.
따라서 AiA_i 또는 AjA_j가 일어날 확률도 각각이 일어날 확률의 합과 같다고 이해할 수 있다.

0개의 댓글