ref : 만화로 쉽게 배우는 베이즈 통계학
기분이 좋거나 안좋을수도 있고,
전화할수도 안할수도 있는 친구가 있다고 치자.
친구가 나에게 전화를 걸 확률은
1. 기분이 좋고
2. 기분이 좋을 때 전화할 확률(조건부)이 있다면
(1)x(2) 의 확률로 나에게 전화를 걸 것이다.
반대로,
1. 기분이 나쁘고
2. 기분이 나쁠때 전화할 확률(조건부)이 있다면
(1)x(2) 의 확률로 나에게 전화를 걸 것이다.
나에게 전화를 걸 확률은
P(전화를 검|좋음) + P(전화를 검|안좋음) 이다.
이를 P(전화를 검)라고 하자.
기분이 좋으면서 나에게 전화를 걸었을 확률은
기분이 좋을때, (기분이 좋아서) 전화를 걸었을수도 있고
전화를 걸었을때, (왠지모르게?) 기분이 좋았을수 있다.
어쨌든 둘 다 기분이 좋으면서 나에게 전화를 걸었으니까.
[ 식1 ]
P(좋음&전화를 검) = P(좋음|전화를 검) x P(전화를 검) = P(전화를 검|좋음) x P(좋음)
위 이야기에서 중요한 것은
2가지 상황이 동시에 일어나는 (좋음,전화를 검) 확률에 있어서
두가지 경우가 있고
각 경우는 확률 x 조건부 확률로 구성되어 있다는 것이다.
그리고 두 경우의 결과값이 같다는 것이다.
P(좋음|전화를 검) x P(전화를 검) = P(전화를 검|좋음) x P(좋음)
수식이 나올건데 복잡하다.
직관적으로 이해해보자.
[ 아이디어1 ]
걍 어떤 사건이 발생할 때, 이 사건에 영향을 끼칠 수 있는 (사전의) 경우의 수가 뭐뭐 있나 고려해보고, 경우의수별, 해당 확률이 발생할 확률 * ( 조건부 확률 | 해당 경우의 수에서 ) 를 더해주는거라고 생각하자.
[ 식1의 변형 ]
P(좋음|전화를 검)xP(전화를 검) = P(전화를 검|좋음)xP(좋음) // <- 결과적으로 좋음 & 전화를 검
P(좋음|전화를 검) = P(전화를 검|좋음)xP(좋음) / P(전화를 검)
이렇게 변형 가능하다.
위 식은 어떻게 생각하면 좋을까.
전화를 걸었을 때, 기분이 좋을수도 안좋을수도 2가지 경우의 수가 있지 않은가?
그래서 좌항이 전화를 걸었을 때 기분이 좋은거.
우항의 head 는 좋음&전화를 검, body 는 전화를 검
그래서 우항도 전화를 걸었을 때 기분이 좋은거.
P(좋음|전화를 검) = P(전화를 검|좋음)xP(좋음) / P(전화를 검)
식에서 전화를 검에서
사전에 기분이 좋을수도 안좋을수도 있음을 알고 있다.
[ 아이디어 1 ] 과 똑같이 생각해보면
P(좋음|전화를 검) = P(전화를 검|좋음)xP(좋음) / P(전화를 검)
= P(전화를 검|좋음)xP(좋음) / {P(전화를 검|좋음)xP(좋음) + P(전화를 검|안좋음)xP(안좋음)}
이다.
문제.
나이 40세 이상인 유저에서 존댓말을 쓰는 경우는 79% 확률이다.
나이 40세 미만인 유저에서 존댓말을 쓰는 경우는 26% 확률이다.
존댓말을 쓴 한 사림이 있을때 이 사람이 40세 이상일 확률이 궁금하다.
P(old|존댓말) = ?
P(old|존댓말) x P(존대말) = P(존댓말|old) x P(old) = P(존댓말&old)
임을 우린 알고 있다.
? = P(존댓말|old) x P(old) / P(존댓말)
= head / { P(존댓말|new)P(new) + P(존댓말|old)P(old) }
임을 알 수 있다.
그런데 P(new), P(old)가 얼마인지 모른다.
이럴때 걍 적당한 숫자를 찍어서 푼다.
0.5, 0.5 라고 하자. 아니면 유저 분포상 대충 젊은 사람이 많으면 7:3 ?
다음 공부 내용은 가장 무서운(?) 주제인 마르코브 연쇄 몬테카를로 방법...;;
문제를 풀어보니,
존댓말 & old 로만 구성된 문제를 존댓말 & old & new 의 차원에서 풀 수 있다는걸 알 수 있었다.