인공지능 및 기계학습 개론 1 - 3주차 Quiz

jy.Hyun·2024년 7월 31일

기계학습 개론1

목록 보기

8/8

점선 classifier의 Risk가 실선 classifier보다 반달 모양의 파란색 부분만큼 Bayes risk가 큼을 알 수 있다.

텍스트 분석, 예컨대 sentiment analysis 등의 문제에 적용할 수 있다.
데이터들 간의 상관관계가 강한 데이터보다, 데이터들의 상관관계가 없는 데이터에서 일반적으로 좋은 성능을 보인다.
Naïve assumption을 전제로 하는데 이는 단점으로 작용할 수 있다.
Input feature 간 marginal independence를 가정한다.
Input feature 간 conditional independence를 가정한다.

먼저 EnjoySpt=Yes인 경우와 NO인 경우에 Class Prior 따로 구하면
$P(Y=\text{Yes}) = \frac{3}{4}, P(Y=\text{No}) = \frac{1}{4}$ 이다.
그리고 각 Feature간에 EnjoySpt가 Yes일 때의 조건부 확률을 계산하면 다음과 같다.

$P(\text{Sky=Sunny} | Y=\text{Yes}) = 1$
$P(\text{Temp=Warm} | Y=\text{Yes}) = 1$
$P(\text{Humid=High} | Y=\text{Yes}) = \frac{2}{3}$
$P(\text{Wind=Strong} | Y=\text{Yes}) = 1$
$P(\text{Water=Warm} | Y=\text{Yes}) = \frac{2}{3}$
$P(\text{Forecst=Change} | Y=\text{Yes}) = \frac{1}{3}$
이를 Naive Bayes Classifier의 식에 따라 모두 곱해주면 다음과 같은 값이 나오게 된다. $P(Y=\text{Yes}) \cdot \prod_{1 \leq i \leq d} P(X_i=x_i | Y=\text{Yes}) = \frac{3}{4} \times 1 \times 1 \times \frac{2}{3} \times 1 \times \frac{2}{3} \times \frac{1}{3}$ $= \frac{3}{4} \times \frac{2}{3} \times \frac{2}{3} \times \frac{1}{3} = \frac{1}{9}$