[인공지능개론1] 2. k-NN

youznn·2023년 2월 26일

인공지능개론1

목록 보기

2/3

k-Nearest Neighbors

분류 문제에서 k-NN 기본 아이디어는 unknown data의 k개의 최근접 이웃들을 찾은 후, 가장 많은 클래스로 분류하는 것이다.

경계가 복잡하다. overfitting 이 발생할 확률이 높다.

k가 커지면서 경계가 단순화된다. stable 하지만 정확도는 떨어질 수 있다. 따라서 최적의 k를 찾는 것이 중요하다.

regression은 레이블을 찾아내는 classification과 달리 실제 값 (real number)를 함수를 통해 찾아내야 한다.

X축에서 k개의 근접 이웃을 찾고, y값들의 평균으로 찾는다.

단순히 카운팅을 하거나 평균을 이용하게 되면 데이터의 수에 따른 편향이 일어날 수 있다

해결 방법: 거리에 따른 가중치를 추가한다.

distance(거리)는 선형적으로 스케일되어 있기 때문에 스케일에 민감하다. 따라서 distance에서 k NN 을 사용하기 전에는 variance를 고려해 주어야 한다.

Small K : higher variance, less stable -
데이터 값들이 다양하게 분포되어 있으며(예측값들의 편차가 작다) 안정적이지 않다. overfitting의 가능성
Large K : higher bias, less precise - 데이터 값들이 정답에서 떨어져 있다. underfitting의 가능성

https://github.com/youznn