인공지능 및 기계학습 개론 1 - 2주차 3. Linear regression

jy.Hyun·2024년 7월 30일

가설 과적합 기계학습 개론 1 나이브베이즈분류기 다항회귀 선형회귀 역행렬 최소제곱법 통계적_기반 특징_공학

기계학습 개론1

목록 보기

4/8

edwith에 올라와있는 문인철 교수님의 인공지능 및 기게학습 개론1을 공부하여 정리한 내용입니다.

지금까지는 우리는 Rule based Learning에 대해서 알아보았다. 이제부터는 통계적 기반의 approach에 대해서 알아보자.

Housing dataset

이번 수업에서는 다음과 같은 데이터셋을 사용한다.
13 numerical independent values - attribute
1 numerical dependent value - class variable

Hypothesis

지금까지의 hypothesis가 Rule이었던 것와는 다르게 공식으로 표현해보자.
우리는 linear는 건들지 않고 $\theta$ 를 잘 정의해보려고 한다.
$x_0$ 를 모든 원소가 1인 벡터로 생각하면 다음과 같이 정리되어 matrix 형태로 나타낼 수 있다.
현실에서는 noise가 있기 때문에 error를 더 해주어야한다. 하지만 우리의 식에는 에러가 없어진 function 이기 때문에 $\hat{f}$ 로 나타낸다.
우리의 목표는 $\theta$ 항은 점점 더 크게 만들고 $e$ 항은 점점 더 작게 만드는 것이다.
이러한 목표로 $\theta$ 를 추정해보겠다.
이때 $Y^TY$ 항은 $\theta$ 와 무관한 상수항임으로 지워준다.
극점을 활용하여 $\theta$ optimize 할 수 있다.
이렇게 $\theta$ 를 찾을 수 있다.
추가사항) 여기서 $X^TX$ 가 역행렬을 가지는 조건을 무엇일까? 참고
- 결론부터 말하자면 $X$ 가 Full Rank 여야 한다.
- 증명)
- $v \in \mathbb{R}^m$ 에 대해 $Xv=0$ 일 경우 if and only if $X^TXv=0$ 이다.
- non trivial solution에 대해, 만약 $X^TXv=0$ 이라면, $v^TX^TXv=0$ , $(Xv)^TXv=0$
- 즉, $Xv=0$ 이 된다.
- X의 계수가 m이라면(Full rank), 이는 $\mathbb{R}^m$ 에서 $X$ 가 일대일 대응임을 의미한다. 이는 곧 $X^TX$ 도 일대일 대응이면서 정사각행렬이기에 가역적(역행렬이 존재)이다.
- 반대로, $X$ 의 계수가 $m$ 보다 작다면, $Xv=0$ 인( $v \neq 0$ ) $v \in \mathbb{R}^m$ 가 존재한다. 그러면 $X^TXv=0$ 이 되고, $X^TX$ 는 가역적일 수 없다.(역행렬이 존재하지 않는다.)
예측 값이 실제 값과 대체적으로 잘 맞지만 feature value가 커질수록 잘 맞지 않는 것을 볼 수 있다.
어떻게 하면 feature value가 커지더라도 잘 맞게 할 수 있을까? (직선을 휘어지게 할 수 있을까?)
Feature set를 변형시켜 $\phi_{j} ( x_{i} )$ 비선형적으로 만들 수 있다.
큰 feature value에 잘 맞는 것을 볼 수 있다.
하지만 이게 과연 맞는 것일까? Decision tree에서 node를 많이 늘리면 오히려 현실에서는 성능이 떨어졌던 것처럼 현실에서는 맞지 않을 수 있다.
이처럼 데이터가 많아질수록 오히려 너무 복잡해지고 성능은 떨어질수도 있다.
이러한 단점들을 보안하기 위해 3주차부터는 Naive Bayes Classifier를 배워볼 것이다.