지도 학습 알고리즘은 크게 분류와 회귀(regression)으로 나뉜다.
회귀는 두 변수 사이의 상관관계를 분석하는 즉, 임의의 어떤 숫자를 예측하는 문제입니다.
K-최근접 이웃 회귀 알고리즘을 구현한 클래스는 KNeighborsRegression 입니다.
K-최근접 이웃 회귀의 경우, 훈련세트를 벗어나는 수치의 샘플이 오면 제대로 예측하지 못하는 한계가 있다.
이런 경우 선형회귀 알고리즘으로 해결이 가능하다.
선형 회귀(linear regression)은 널리 사용되는 대표 회귀 알고리즘으로 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘
y = a * x + b (a = 기울기, b = 절편, x = 길이)
다항 회귀 : 곡선 linear, 현실을 반영
y = a * x2 + b + x + c (a = 기울기, b = 절편, x = 길이)
여러개의 특성이 존재할 때 각 특성을 새로 곱해서 새로운 특성을 만들어 내는 작업을 의미함.
농어의 "길이 X 높이"를 새로운 특성으로 생성하여 정의함.
PolynomialFeatures() 함수의 transform을 사용할 경우, 한 샘플의 특성이 여러개로 늘어나는 현상을 설명한다.