edwith에 올라와있는 문인철 교수님의 인공지능 및 기게학습 개론1을 공부하여 정리한 내용입니다.
지금까지는 우리는 Rule based Learning에 대해서 알아보았다. 이제부터는 통계적 기반의 approach에 대해서 알아보자.
지금까지의 hypothesis가 Rule이었던 것와는 다르게 공식으로 표현해보자.

우리는 linear는 건들지 않고 를 잘 정의해보려고 한다.
를 모든 원소가 1인 벡터로 생각하면 다음과 같이 정리되어 matrix 형태로 나타낼 수 있다.

현실에서는 noise가 있기 때문에 error를 더 해주어야한다. 하지만 우리의 식에는 에러가 없어진 function 이기 때문에 로 나타낸다.

우리의 목표는 항은 점점 더 크게 만들고 항은 점점 더 작게 만드는 것이다.
이러한 목표로 를 추정해보겠다.

이때 항은 와 무관한 상수항임으로 지워준다.
극점을 활용하여 optimize 할 수 있다.

이렇게 를 찾을 수 있다.
추가사항) 여기서 가 역행렬을 가지는 조건을 무엇일까? 참고
- 결론부터 말하자면 가 Full Rank 여야 한다.
- 증명)
- 에 대해 일 경우 if and only if 이다.
- non trivial solution에 대해, 만약 이라면, ,
- 즉, 이 된다.
- X의 계수가 m이라면(Full rank), 이는 에서 가 일대일 대응임을 의미한다. 이는 곧 도 일대일 대응이면서 정사각행렬이기에 가역적(역행렬이 존재)이다.
- 반대로, 의 계수가 보다 작다면, 인() 가 존재한다. 그러면 이 되고, 는 가역적일 수 없다.(역행렬이 존재하지 않는다.)

예측 값이 실제 값과 대체적으로 잘 맞지만 feature value가 커질수록 잘 맞지 않는 것을 볼 수 있다.
어떻게 하면 feature value가 커지더라도 잘 맞게 할 수 있을까? (직선을 휘어지게 할 수 있을까?)

Feature set를 변형시켜 비선형적으로 만들 수 있다.

큰 feature value에 잘 맞는 것을 볼 수 있다.
하지만 이게 과연 맞는 것일까? Decision tree에서 node를 많이 늘리면 오히려 현실에서는 성능이 떨어졌던 것처럼 현실에서는 맞지 않을 수 있다.
이처럼 데이터가 많아질수록 오히려 너무 복잡해지고 성능은 떨어질수도 있다.
이러한 단점들을 보안하기 위해 3주차부터는 Naive Bayes Classifier를 배워볼 것이다.