분류 문제에는 다음과 같은 것들이 있다.
이러한 분류문제를 해결하기 위해 linear regression을 통해 생각해볼 수 있다. 아래의 그림을 보면 얼핏 잘 맞는것 같다.
하지만 끝에 데이터가 추가되고 나면 무언가 이상해짐을 느낄 수 있다.
즉 Classification과 관련된 문제에서 linear regression을 쓰는 것은 좋지 않다.
정말 중요한 Sigmoid function / Logistic function. 용어를 기억하고 무엇인지 확실히 알아두자.
또한 "probability that y=1, given x, parameterized by "라는 표현이 무엇을 의미하는지, 어떻게 표기하는지에 대해서 기억해두자.
theta가 주어지면 Decision boundary를 결정한다. 이는 y가 0 혹은 y가 1인 영역을 나누는데, hypothesis function을 통해 만들어 진다.
무엇이냐?
위의 예시처럼 Decision Boundary는 linear이 될 수도 있고, Non-linear의 모양을 가질 수도 있다. 일단은 여기서 가설 함수가 어떠한 모양을 가지는가에 대한 직관을 가지면 된다.