edwith에 올라와있는 문인철 교수님의 인공지능 및 기계학습 개론1을 공부하여 정리한 내용입니다.
1. Decision tree의 root attribute를 선정할 때의 기준으로 바람직한 것은?
- Information gain이 가장 낮은 것
- Information gain이 가장 중앙인 것
- Information gain이 가장 높은 것
Information gain이 높을 수록 엔트로피 차이가 크다. (Posterior의 엔트로피가 낮다, 불확실성이 낮다.)
2. 4개의 positive example가 있고 7개의 negative example가 있을 때 entropy를 계산하시오.
−114log2114+(−117log2117)=0.95
3 
θ=(XTX)−1XTY
import numpy as np
X = np.array([[1, 1], [1, 2], [1, 3]])
Y = np.array([2, 6, 4])
theta_hat = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(Y)
theta_sum = np.sum(theta_hat)
print(theta_sum)
2.9999999999999964