인공지능 및 기계학습 개론 1 - 2주차 3. Linear regression

jy.Hyun·2024년 7월 30일

기계학습 개론1

목록 보기
4/8

edwith에 올라와있는 문인철 교수님의 인공지능 및 기게학습 개론1을 공부하여 정리한 내용입니다.

지금까지는 우리는 Rule based Learning에 대해서 알아보았다. 이제부터는 통계적 기반의 approach에 대해서 알아보자.

Housing dataset

  • 이번 수업에서는 다음과 같은 데이터셋을 사용한다.
  • 13 numerical independent values - attribute
  • 1 numerical dependent value - class variable

Hypothesis

  • 지금까지의 hypothesis가 Rule이었던 것와는 다르게 공식으로 표현해보자.

  • 우리는 linear는 건들지 않고 θ\theta를 잘 정의해보려고 한다.

  • x0x_0를 모든 원소가 1인 벡터로 생각하면 다음과 같이 정리되어 matrix 형태로 나타낼 수 있다.

  • 현실에서는 noise가 있기 때문에 error를 더 해주어야한다. 하지만 우리의 식에는 에러가 없어진 function 이기 때문에 f^\hat{f}로 나타낸다.

  • 우리의 목표는 θ\theta항은 점점 더 크게 만들고 ee 항은 점점 더 작게 만드는 것이다.

  • 이러한 목표로 θ\theta 를 추정해보겠다.

  • 이때 YTYY^TY항은 θ\theta와 무관한 상수항임으로 지워준다.

  • 극점을 활용하여 θ\theta optimize 할 수 있다.

  • 이렇게 θ\theta를 찾을 수 있다.

  • 추가사항) 여기서 XTXX^TX가 역행렬을 가지는 조건을 무엇일까? 참고
    - 결론부터 말하자면 XX가 Full Rank 여야 한다.
    - 증명)
    - vRmv \in \mathbb{R}^m에 대해 Xv=0Xv=0일 경우  if and only if XTXv=0X^TXv=0이다.
    - non trivial solution에 대해, 만약 XTXv=0X^TXv=0이라면, vTXTXv=0v^TX^TXv=0, (Xv)TXv=0(Xv)^TXv=0
    - 즉, Xv=0Xv=0이 된다.
    - X의 계수가 m이라면(Full rank), 이는 Rm\mathbb{R}^m에서 XX가 일대일 대응임을 의미한다. 이는 곧 XTXX^TX도 일대일 대응이면서 정사각행렬이기에 가역적(역행렬이 존재)이다.
    - 반대로, XX의 계수가 mm보다 작다면, Xv=0Xv=0인(v0v \neq 0) vRmv \in \mathbb{R}^m가 존재한다. 그러면 XTXv=0X^TXv=0이 되고, XTXX^TX는 가역적일 수 없다.(역행렬이 존재하지 않는다.)

  • 예측 값이 실제 값과 대체적으로 잘 맞지만 feature value가 커질수록 잘 맞지 않는 것을 볼 수 있다.

  • 어떻게 하면 feature value가 커지더라도 잘 맞게 할 수 있을까? (직선을 휘어지게 할 수 있을까?)

  • Feature set를 변형시켜 ϕj(xi)\phi_{j} ( x_{i} ) 비선형적으로 만들 수 있다.

  • 큰 feature value에 잘 맞는 것을 볼 수 있다.

  • 하지만 이게 과연 맞는 것일까? Decision tree에서 node를 많이 늘리면 오히려 현실에서는 성능이 떨어졌던 것처럼 현실에서는 맞지 않을 수 있다.

  • 이처럼 데이터가 많아질수록 오히려 너무 복잡해지고 성능은 떨어질수도 있다.

  • 이러한 단점들을 보안하기 위해 3주차부터는 Naive Bayes Classifier를 배워볼 것이다.

0개의 댓글