어느날 잠을 자다가 창문 밖을 보니 UFO 로 추정되는 무언가를 봤다.
이를 베이지안 스럽게 표현해보자.
Stage 1 :
Stage 2 :
위 사례에서 내가 내린 결론은 Data를 보다 더 잘 설명하는 가설은 H2이다.
왜? : P(H2|x,D) >>>>> P(H1|x,D) 이기 때문이다.
H 는 가설이고,
H 의 가능도 ( 그럴듯한 정도 )
= 추론을 할때 내가 가진 신념의 정도
= 이 신념의 정도는 세상 그리고 현상을 얼마나 잘 설명하고 있는지에 따라 다르기 때문이다,
이를 역으로 설명하면
더 높은 그럴듯한 가설 -> 신념이 높고 -> 수학적으로 표현하면 확률의 비율 값이 높다.
여기서 확률의 비율이란
P(H2|x,D) / P(H1|x,D) 이다.
방금 예제에선 D 를 잘 설명하는 가설(신념)H를 고르는 방법을 설명했다.
위 예제에서 "데이터가 신념에 영향을 미친다."는 사실을 확인했다.
반대로 신념은 데이터에 영향을 미치지 않는다.
베이지안 사고는 자신의 신념을 바꾸고. 이해하고 있는 세상을 업데이트한다.
실제 세상을 잘 표현하는 가설을 얻을때까지 가설을 업데이트한다.
어느날 퇴근하고 집에 들어와보니 창문이 깨져있고 현관문이 열려있다. 집에 들어가보니 노트북이 없다. 이를 수식적으로 표현해보자.
Data_1 : 문이 열려있고, 창문이 깨져있다.
Data_2 : 집에 들어가보니 노트북이 없다.
H1 : 집에 도둑이 들었다.
P(Data_1, Data_2 | H1 ) = High
그런데 이웃집 아이가 집에 와선 자초지종을 설명해주는데,
본인이 야구공을 잘못던져 창문을 깨트렸고,
문이 열려있어 들어왔었다.
노트북이 눈에 띄여 귀중품이라 자신이 잠시 보관하고 있었다고 한다.
Data_3 : 아이가 찾아와 자초지종을 설명
H2 : 아이가 실수로 공놀이를 하다가~~~ (생략)
P(Data_1, Data_2, Data_3 | H2 ) = Very High
P(Data_1, Data_2, Data_3 | H1 ) = Low
빈도주의 확률은 실제 문제 해결에 부적절한 경우가 많다.
친구랑 이야기를 하다가 "~~" 주제가 나무위키에 있냐/없냐로 내기를 하게 됐다.
두 사람의 신념은 어떻게 측정가능한가?
오즈를 이용한 확률 결정
베타 분포란?
확률 vs 통계, 추론
확률 : 사건이 일어날 가능성이 얼마인지 정확히 알고 있음.
확률의 관심 분야 : 특정 관찰에 대해 얼마나 가능성 있는지.
통계 : 이 문제를 거꾸로 살펴봄.
통계의 관심 분야 : 사건들이 발생한 데이터 -> 확률 "추론"
랜덤뽑기 예제.
확률의 확률 계산.
Binominal(14:41,0.5) = 0.5 의 확률로 41회 시도해서 14회 성공할 확률
Binominal(14:41,14/41) = 14/41 의 확률로 41회 시도해서 14회 성공할 확률
y축의 값이 14/41 부분에서 더 높게 나온다.
그런데 이산확률분포로 보면 문제점이 2가지 있다.
위 문제들로 인해 베타분포를 사용한다.
베타 분포가 생긴 꼴을 보자.
이항 분포에서 달라진 점 :
동전을 10번 던져서 4번의 앞면이 나오고 6면이 뒷면이 나왔다. 게임이 공정하다는 가정 하에, 해당 게임이 5% 이내에서 공정할 확률을 구하라.