ML [4] Logistic Regression(2)

eric9687·2022년 7월 21일

본 포스팅은 카이스트 산업및시스템공학과 문일철 교수님의 Introduction to Artificial Intelligence/Machine Learning(https://aai.kaist.ac.kr/xe2/courses) 강의에 대한 학습 정리입니다.

$\hat{\theta}=argmax_{\theta}\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))$
- $f(\theta)=\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))$
- $\frac{\partial{f(\theta)}}{\partial{\theta_j}}=\frac{\partial}{\partial{\theta_j}}\{\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))\}=\sum_{1\leq{i}\leq{N}}X_{i,j}(Y_i-P(y=1|x;\theta))$
Gradient method를 사용하려면
- $f'(x)$ 를 위와 같이 알아야한다.
  - case of ascent: $x_{t+1} \larr x_t + hu'=x_t+h\frac{f'(x_t)}{f'(x_t)}$
- 그리고, $\theta$ 를 계속적으로 update
- $\theta_j^{t+1}\larr\theta_j^t+h\{\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))\}$
  $=\theta_j^t+\frac{h}{c}\{\sum_{1\leq{i}\leq{N}}{X_{i,j}(Y_i-\frac{e^{X_i\theta^t}}{1+e^{X_i\theta^t}})}\}$ ,
- $\theta_j^0$ 은 임의적으로 골라져야한다.
따라서, Gradient Discent는 Linear Regression의 "feature가 많고 matrix multiplication으로부터의 문제를 해결한다."

Naive Bayes 와 Logistic Regression

나이브 베이즈에 categorical이 아닌 continuous하다는 조건을 가질 수 있도록 Gaussian distribution의 특징을 더해준다.
$P(Y)\prod_{1\leq{i}\leq{d}}P(X_i|Y)=\pi_k\prod_{1\leq{i}\leq{d}}\frac{1}{\sigma_k^iC}exp(-\frac{1}{2}(\frac{X_i-\mu_k^i}{\sigma_k^i})^2)$
Naive Bayes assumption에서,
마지막 부분을 관찰해본다면, logistic regression에서 쓰이는 logstic function 형태와 같아졌고, 분모의 summation부분이 $X\theta$ 와 같아졌음을 볼 수 있다.
위의 식을 얻으려면 필요한 조건:
- Naive assumption, same variance assumption
- gaussian distribution for $P(X|Y)$
- Bernoulli distribution for $P(Y)$