k-Nearest Neighbors
분류 문제에서 k-NN 기본 아이디어는 unknown data의 k개의 최근접 이웃들을 찾은 후, 가장 많은 클래스로 분류하는 것이다.
경계가 복잡하다. overfitting 이 발생할 확률이 높다.
k가 커지면서 경계가 단순화된다. stable 하지만 정확도는 떨어질 수 있다. 따라서 최적의 k를 찾는 것이 중요하다.
regression은 레이블을 찾아내는 classification과 달리 실제 값 (real number)를 함수를 통해 찾아내야 한다.
X축에서 k개의 근접 이웃을 찾고, y값들의 평균으로 찾는다.
단순히 카운팅을 하거나 평균을 이용하게 되면 데이터의 수에 따른 편향이 일어날 수 있다
해결 방법: 거리에 따른 가중치를 추가한다.
distance(거리)는 선형적으로 스케일되어 있기 때문에 스케일에 민감하다. 따라서 distance에서 k NN 을 사용하기 전에는 variance를 고려해 주어야 한다.
Small K : higher variance, less stable -
데이터 값들이 다양하게 분포되어 있으며(예측값들의 편차가 작다) 안정적이지 않다. overfitting의 가능성
Large K : higher bias, less precise - 데이터 값들이 정답에서 떨어져 있다. underfitting의 가능성