가장 간단한 머신러닝 알고리즘
K값에 따라 분류가 달라질 수 있다는 점을 유의한다
KNN, 장점은?
KNN, 단점?
즉, 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속할 그룹을 판단하는 알고리즘이다.
KNN 알고리즘은 유클리디언 / 맨하탄 두 가지 방식을 사용한다. 테스트된 값과 실측치를 구분하기 위해서다.
점과 점 사이의 거리를 계산한다. 이 공식의 장점은 차원에 구애받지 않고 사용할 수 있다는 점이다.
**실습문제 1**
예시로 실습을 해보자. d12와 d5의 Euclidean distance 는 speed와 agility 값을 보고 계산하면 된다.
유클리디언 디스턴스
((|2.75 - 5.00|)2 + (|2.50 - 7.5|)2)**0.5 = 5.4829
맨하탄 디스턴스
(|2.75 - 5.00|) + (|2.50 - 7.5|) = 7.25
이런 식으로 계산하면 됨!
실습문제 2
이렇게 제시되어 있다면 어떻게 해야할까? test instance를 기준으로 계산을 하나 하나 하다보면 이런 결과값이 나온다
계산식 자체는 어려우지 않으니 직접 해보면 될듯.