베이즈 정리
P(A)=A사건이 일어날 확률
1. A와 B가 독립적으로 연달아 일어났다면? P(A) x P(B)
2. A때문에 B사건이 영향을 받았다면?
2가지 경우를 구별하려면 어떻게 해야 할까?
A가 일어났다는 조건 하에서 B가 일어날 확률은? =P(B|A)
A와 B가 연달아서 일어날 확률은? =P(A)P(B|A) = 사전확률 사후확률
![](https://velog.velcdn.com/images%2Fkyerin96%2Fpost%2F78f35e51-18bb-4488-85e6-9443c5eb9029%2Fimage.png)
![](https://velog.velcdn.com/images%2Fkyerin96%2Fpost%2F5f958158-8e44-4a4c-9bfa-b0c1dec06190%2Fimage.png)
![](https://velog.velcdn.com/images%2Fkyerin96%2Fpost%2F74c5252d-9efe-4ca2-94d1-39d2d98e30b6%2Fimage.png)
나이브 베이즈란?
아주 간단하게 만든다는 의미
확률이 높은 쪽이 우리가 원하는 클래스가 됨
멀티클리스 옵션: 나이브 베이즈를 통해 여러가지 분류 가능
나이브 베이즈 알고리즘
- P(특정단어)가 나타날 확률은 일일이 구할 수 없으므로 모두 같다고 생각함
- X문서={'단어1', '단어2'. '단어3', ...}일 때에 P(X|스팸)인 확률은 서로 독립이라고 가정하고, 단순하게 P('단어1'|스팸)P('단어2'|스팸)P('단어1'|스팸)*... 으로 계산함
- 긍정, 부정을 예측하거나 주제 분류를 함
- 텍스트마이닝에서 많이 사용함
- 간단하면서도 이해하기 쉽고, 강력한 성능을 가짐
나이브 베이즈 적용
- 콜센터의 상담전화가 걸려 올 떄에 쓰는 단어들 목록을 보고 유추하여 해당하는 전문상담원을 연결시켜 주는 모델임
- 결혼을 준비 중인 30대 커플들의 선호하는 신혼가구들의 분포를 예측하는 모델임
감성분석
- 영화 댓글을 판별하여 긍정/부정을 예측하는 모델을 말함
- 텍스트 마이닝의 영역에서 ' 감성분석'은 나아가 NLP(자연어 처리)까지 발전될 수도 있음