https://wikibook.co.kr/mymlrev/ 을 읽고 정리한 내용입니다.
데이터 분류에 사용되는 지도학습 알고리즘
kNN의 정의
현재 데이터를 특정값으로 분류하기 위해 기존의 데이터 안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류하는 알고리즘
k : k 개의 이웃(가까이 존재하는 데이터), 예측을 위해 참조할 데이터 개수
NN : 현재 알고자 하는 데이터로부터 근접한 데이터
머신러닝 알고리즘에서의 공간의 개념
- 현실 공간 : 평면 이동 및 수직 이동이 가능한 3차원 공간
- 벡터 공간 : 벡터 연산이 가능한 N차원 공간 => 머신러닝 알고리즘에서 사용
'k'의 결정
- kNN 알고리즘은 k에 따라 데이터를 다르게 예측할 수 있음.
- k는 1이 아닌 홀수로 정하는 경우가 많음
- 최적의 k를 찾기 위해서는 검증 데이터를 통해 가장 정확도가 높은 k 를 선정
두 개의 레이블 중 하나로 분류하는 경우
ex. 악성 코드 분류(일반 파일 vs 악성 코드 파일)
여러 개의 가능한 레이블 중 하나로 분류하는 경우
ex. 임의의 손글씨 숫자를 1~9 중 하나로 분류
n차원 벡터 공간에서의 거리계산에 유클리드 거리를 이용