[Hello Coding 알고리즘] 10. KNN 알고리즘 k-nearest neighbors algorithm

Bibi·2021년 7월 8일

Hello Coding 알고리즘

목록 보기

10/11

Hello Coding 알고리즘

10. KNN 알고리즘 k-nearest neighbors algorithm

KNN알고리즘은 k개의 가장 가까운 이웃 데이터를 이용해 '분류'와 '회귀분석'을 할 수 있는 알고리즘이다.
보통 N개의 전체 데이터가 있을 때, 살펴볼 이웃 데이터인 k는 N의 제곱근으로 정한다(sqrt(N))

분류 : 그룹으로 나누기
회귀 : (숫자로 된) 반응을 예측하기

오렌지와 자몽 분류하기

어떤 과일 A가 오렌지인지 자몽인지 어떻게 분류할 수 있는가?

일반적으로, 더 크고 붉은 과일이 자몽이다.

KNN알고리즘으로 오렌지/자몽 분류하기

색상과 크기를 기준으로 2차원 그래프에 오렌지들과 자몽들을 점으로 나타낸다.
A의 색상과 크기를 기준으로 그래프에 나타낸다.
그래프상에서 A와 가장 가까운 K개의 이웃들을 살펴본다.
1. 가까운 이웃의 기준은 거리공식 (피타고라스의 정리, 또는 코사인 유사도)을 이용한다.
2. 이 때 거리는 두 숫자 집합의 유사도를 나타낸다. (작을수록 유사함)
K개의 이웃들 중 오렌지가 더 많다면 오렌지로, 자몽이 더 많다면 자몽으로 분류한다.

머신러닝의 소개

KNN은 머신러닝에도 사용될 수 있다.

추천 시스템도 머신러닝의 일종이다.

OCR 광학적 문자 인식 Optical Character Recognition

사진을 찍으면 그 사진 속의 글자를 인식해 주는 기술.

모든 글자 그림을 살펴보고, 그 그림들의 특징을 뽑아낸다.
- 이를 트레이닝training이라고 한다.
새로운 그림이 주어지면, 그 그림의 특징을 뽑아서 가장 가까운 글자를 구별해낸다.

OCR에 사용되는 특징 추출은 오렌지/자몽 문제보다 훨씬 복잡하다. 하지만 원리는 같다!

비슷한 원리가 음성 인식, 얼굴 인식에도 사용된다!

스팸 필터 만들기

'나이브 베이즈 분류기 Naive Bayes classifier' 라는 알고리즘을 사용한다.

스팸인/스팸이 아닌 이메일 제목을 받는다. 제목을 단어들로 분리한다.
어떤 이메일 제목에 나타난 단어가 스팸메일에 나타날 확률이 높은지, 아닌지 판별한다.

예를 들어 '대출'라는 단어가 스팸 메일에서만 발견될 때, 이 단어가 포함된 메일이 오면 스팸으로 분류될 것이다.

주식 시장 예측하기

과거의 정보만으로 확실히 미래를 맞추기는 어렵다.

예를 들어 주식 시장을 예측하기 위해서 어떤 특징을 골라야 하는가? 정답이 없음.

KNN알고리즘 관련 개념들

정규화 normalization
스케일링 scaling : 평균값을 구한 다음, 그 값으로 전체 점수 나누기
가중치 : 중요 고객이 있다면 그 고객의 점수에 가중치를 주어 비교할 수 있다.

Bibi

이전 포스트

[Hello Coding 알고리즘] 9. 동적 프로그래밍 dynamic programming

다음 포스트

[Hello Coding 알고리즘] 10. KNN 알고리즘 k-nearest neighbors algorithm