1. 다음 설명 중 옳지 않은 것은?
  • ① 영역에 해당하는 X에 대해서는 푸른색 y로, ② 영역에 해당하는 X에 대해서는 붉은색 y로 분류하여 예측한다
  • 실선 classifier가 점선 classifier보다 Bayes risk가 크다
  • 실선 classifier가 점선 classifier에 비해 더 나은 classifier라 할 수 있다

점선 classifier의 Risk가 실선 classifier보다 반달 모양의 파란색 부분만큼 Bayes risk가 큼을 알 수 있다.

  1. 다음 중 Naïve Bayes Classifier에 대한 설명으로 옳지 않은 것은?
  • 텍스트 분석, 예컨대 sentiment analysis 등의 문제에 적용할 수 있다.
  • 데이터들 간의 상관관계가 강한 데이터보다, 데이터들의 상관관계가 없는 데이터에서 일반적으로 좋은 성능을 보인다.
  • Naïve assumption을 전제로 하는데 이는 단점으로 작용할 수 있다.
  • Input feature 간 marginal independence를 가정한다.
    Input feature 간 conditional independence를 가정한다.

  1. 먼저 EnjoySpt=Yes인 경우와 NO인 경우에 Class Prior 따로 구하면
    P(Y=Yes)=34,P(Y=No)=14P(Y=\text{Yes}) = \frac{3}{4}, P(Y=\text{No}) = \frac{1}{4} 이다.
    그리고 각 Feature간에 EnjoySpt가 Yes일 때의 조건부 확률을 계산하면 다음과 같다.
  • P(Sky=SunnyY=Yes)=1P(\text{Sky=Sunny} | Y=\text{Yes}) = 1
  • P(Temp=WarmY=Yes)=1P(\text{Temp=Warm} | Y=\text{Yes}) = 1
  • P(Humid=HighY=Yes)=23P(\text{Humid=High} | Y=\text{Yes}) = \frac{2}{3}
  • P(Wind=StrongY=Yes)=1P(\text{Wind=Strong} | Y=\text{Yes}) = 1
  • P(Water=WarmY=Yes)=23P(\text{Water=Warm} | Y=\text{Yes}) = \frac{2}{3}
  • P(Forecst=ChangeY=Yes)=13P(\text{Forecst=Change} | Y=\text{Yes}) = \frac{1}{3}
    이를 Naive Bayes Classifier의 식에 따라 모두 곱해주면 다음과 같은 값이 나오게 된다.
    P(Y=Yes)1idP(Xi=xiY=Yes)=34×1×1×23×1×23×13P(Y=\text{Yes}) \cdot \prod_{1 \leq i \leq d} P(X_i=x_i | Y=\text{Yes}) = \frac{3}{4} \times 1 \times 1 \times \frac{2}{3} \times 1 \times \frac{2}{3} \times \frac{1}{3}
    =34×23×23×13=19= \frac{3}{4} \times \frac{2}{3} \times \frac{2}{3} \times \frac{1}{3} = \frac{1}{9}

0개의 댓글