확률

Kyojun Jin·2023년 12월 29일
0

Data Science

목록 보기
2/14

확률

확률 실험: 실제로 해봐서 사건의 비율을 측정. 아래 세 조건을 만족해야 함.

  1. 실험 결과 예상 못함 (미리 짜여진 프로그램 돌리는 건 확률 실험이 아님)
  2. 근데 가능한 경우는 알 수 있음 (주사위 던지면 1부터 6이 나올 거라는 건 앎)
  3. 동일한 실험을 몇 번이고 반복 가능

표본 공간 (Sample space, S): 확률실험으로부터 출현 가능한 모든 결과들의 모임

일정 조건 아래 동일한 실험을 지속적으로 N회 반복했을 때 사건 A가 발생할 확률

P(A)=n(A)NP(A) = \frac{n(A)}{N}

0에서 1까지의 값을 가지며 모든 사건(= 표본 공간)에 대한 확률의 합은 1

사건의 연산

표본 공간 S = {1, 2, 3, 4, 5, 6}
사건 A = 주사위에서 짝수 = {2, 4, 6}
사건 B = 주사위에서 3 이하 = {1, 2, 3}
사건 C = 주사위에서 홀수 = {1, 3, 5}

합사건
어떤 사건의 발생이 사건 A에서 일어나거나 B에서 일어나는 사건
AB={ωωA or ωB}A \cup B = \{\omega| \omega \in A\ or \ \omega \in B\}
예) 1, 2, 3, 4, 6 이 나오는 사건은 사건 A와 B의 합사건이다.

곱사건
동시에 일어나는 사건
AB={ωωA and ωB}A \cap B = \{\omega| \omega \in A\ and \ \omega \in B\}
예) 2가 나오는 사건은 사건 A와 B의 곱사건이다.

여사건
어떤 사건이 발생하지 않을 사건
Ac={ωωA}A^c=\{\omega|\omega \notin A\}
예) 1, 3, 5가 나오는 사건은 사건 A의 여사건이다.

배반사건
두 사건이 동시에 발생하지 않는 사건
AB=A\cap B = \emptyset
예) 사건 C는 사건 A의 배반사건이다.

독립사건
두 사건이 서로의 발생에 영향을 끼치지 않는 사건
예) 사건 A, B, C는 서로 독립사건이다.
첫번째 시행에서 사건 A가 발생했다고 해서 두번째 시행에서 A, B, C가 발생할 확률에 영향이 없다.

덧셈 법칙
P(AB)=P(A)+P(B)P(AB)P(A\cup B) = P(A) + P(B) - P(A\cap B)
사건 A와 B의 확률을 더한 뒤, 곱사건의 확률을 빼준다.

두 사건이 배반사건일 경우 곱사건 AB=A\cap B = \emptyset 이므로 P(AB)=0P(A\cap B) = 0이다.

두 사건이 독립사건일 경우 곱사건 ABA\cap B가 발생할 확률 P(AB)=P(A)×P(B)P(A\cap B) = P(A) \times P(B)

조건부 확률
A가 발생한 상황 하에서 B가 발생할 확률

P(BA)=P(AB)P(A)P(B|A) = \frac{P(A\cap B)}{P(A)}
A가 발생했다는 것이 전제이므로, 사건 B의 표본공간이 전사건 SS에서 사건 AA로 축소된다.

따라서 P(BA)=P(AB)P(A)=n(AB)n(S)n(A)n(S)=n(AB)n(A)P(B|A) = \frac{P(A\cap B)}{P(A)} = \frac{\frac{n(A\cap B)}{n(S)}}{\frac{n(A)}{n(S)}} = \frac{n(A\cap B)}{n(A)}

베이즈 정리

전확률 공식

그림에서 SiS_i는 표본공간 SS의 분할이다.
P(A)=P(S1A)+P(S2A)+P(S3A)+P(S4A)=ΣP(SiA)P(A) = P(S_1 \cap A) + P(S_2 \cap A) + P(S_3 \cap A) + P(S_4 \cap A) = \Sigma P(S_i \cap A)

조건부 확률에서 P(AB)=P(A)P(BA)P(A \cap B) = P(A) P(B|A)

따라서 P(A)=ΣP(SiA)=ΣP(Si)P(ASi)P(A) = \Sigma P(S_i \cap A) = \Sigma P(S_i)P(A|S_i)

이것은 자연스럽게 유도되는 공식이다. SiS_i 에 속하는 사건 A가 발생한다는 것은 사건 SiS_i가 발생한 사건, 그리고 이를 전제로 사건 AA가 발생할 확률의 곱사건이며 이들은 독립사건이기 때문에 P(ASi)=P(Si)P(ASi)P(A \cap S_i) = P(S_i)P(A|S_i)이다. 이를 모두 합한 것(전확률)이 전체 사건 AA가 발생할 확률이다.

사전확률, 사후확률

사건 AA가 발생했다는 것은 SiS_i 중 어느 하나가 발생했다는 것이다.

우리는 결과는 알지만 원인을 모를 때, 원인을 추측하기 위해 다음과 같은 질문을 해볼 수 있다.

사건 AA가 발생했을 때, 그게 SiS_i 때문에 발생했을 확률은?

조건부 확률은 사건 SiS_i 이후에 사건 AA이 발생할 확률(P(ASi)P(A|S_i)), 즉 초점이 AA에 맞춰져 있다면 베이즈 정리는 사건 AA 이전에 사건 SiS_i가 발생'했을' 확률(P(SiA)P(S_i|A)), 초점이 과거의 사건 A에 맞춰져 있다.

여기서 사건 AA의 원인을 제공하는 확률 P(Si)P(S_i)사전 확률이라고 하고, 사건 AA가 발생한 이후에 계산할 수 있는 확률 P(SiA)P(S_i|A)사후 확률이라고 한다.

P(SiA)=P(SiA)P(A)=P(Si)P(ASi)Σj=1nP(Sj)P(ASj)P(S_i|A) = \frac{P(S_i\cap A)}{P(A)} = \frac{P(S_i)P(A|S_i)}{\Sigma^{n}_{j=1} P(S_j)P(A|S_j)}

베이즈 정리로 결과(AA)만 아는 상태에서 원인(SiS_i)을 추측할 수 있는 확률을 구할 수 있다.

베이즈 정리는 이미 아는 것 (P(ASi),P(Si)P(A|S_i), P(S_i), 사전확률)에서 모르는 것(P(SiA)P(S_i|A), 사후확률)을 구한다는 데에서 그 의의가 있다.

예제

생산라인이 3개인 공장이 있다.
각각 하루 생산량과 불량률은 다음과 같다.
생산된 제품 중 불량을 만났을 때 이 불량품이 A1에서 생산됐을 확률?

라인하루 생산량불량률
A110000.01
A220000.02
A330000.03

불량이 난 사건을 B라고 하자.
이때 A1 라인의 불량률이라는 것은 A1 라인에서 생산했을 떄 이게 불량일 확률이기 때문에 P(BA1)P(B|A1)라고 할 수 있다.

전체 물량을 하나 뽑았을 때 그게 A1에서 생산됐을 확률 P(A1)P(A1)16\frac{1}{6}이다. (= 사전확률)

P(AiB)=P(Ai)P(BAi)Σj=1nP(Aj)P(BAj)P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\Sigma^{n}_{j=1} P(A_j)P(B|A_j)}이므로,

P(A1B)=P(A1)P(BA1)P(A1)P(BA1)+P(A2)P(BA2)+P(A2)P(BA2)=16×0.0116×0.01+26×0.02+36×0.03=160014600=114P(A1|B) \\= \frac{P(A1)P(B|A1)}{P(A1)P(B|A1) + P(A2)P(B|A2) + P(A2)P(B|A2)} \\=\frac{\frac{1}{6}\times0.01}{\frac{1}{6}\times0.01 +\frac{2}{6}\times0.02+ \frac{3}{6}\times0.03} \\ =\frac{\frac{1}{600}}{\frac{14}{600}} \\ = \frac{1}{14}

하나 골랐는데 그게 A1에서 생산됐을 확률(사후확률)은 114\frac{1}{14}, 약 0.0714이다.

0개의 댓글

관련 채용 정보