'단단한 머신러닝' 책과 스터디 내용을 기반으로 작성하였습니다.
10.1 K-최근접 이웃 기법
1) KNN
- 자주 사용되는 지도 학습방법
- 어떠한 거리 척도에 기반하여 인접한 K개의 데이터 포인트를 찾아 정보를 바탕으로 예측 및 분류를 진행
- 분류 : 투표(다수결) or 가중 투표(거리 바탕)
- 회귀 : 단순 평균 or 가중 평균 (거리 바탕)
- K의 갯수와 거리 측정법에 따라 성능의 차이가 발생
- 거리 계산법이 적절 and 샘플(독립항등분포) + 베이즈 최적 분류법 -> 일반 오차율 보다 좋습니다.
베이즈 최적 분류법
- 훈련 데이터 셋을 바탕으로 새로운 데이터가 주어졌을 때 가장 적절한 분류는 사후확률을 기반으로 한 가중치를 반영한 모든 가설의 예측의 합
- 즉 사후확률 기반 모든 가설 확률의 합이 가장 최적 분류입니다.
2) 모수적 & 비모수적
- 모수적 모델
- 알려진 정규분포나 독립 변수 등 사전에 가정된 조건이 있는 경우
- ex) 선형회귀 모델 - 독립변수가 종속변수를 예측하는데 사용되며 정규분포임을 가정합니다.
- 비모수적 모델
- 사전에 지정된 가정 없이 주위 K개의 특징을 바탕으로 예측 or 분류
10.2 임베딩
1) 개념
- 임베딩은 수치로 제공되지 않는 데이터를 수치형으로 변환하는 과정을 거쳐 데이터를 벡터 형태로 표현하는 방식입니다.
- 데이터 포인트들 간의 관계와 패턴 정보도 나타내고 있습니다.
2) 학습법
- 단일 속성만 고려한다면 문제가 없을 수도 있지만 속성이 많다면 최소한의 샘플 갯수가 셀 수 없이 늘어납니다.
- 또 거리에 기반한 학습의 경우 고차원 공간상의 거리를 계산함에 있어 내적 계산 등 복잡한 경우가 있습니다.
3) 차원의 저주
- 고차원으로 갈수록 거리 계산이 어려워지고 학습의 성능이 떨어지는 현상
- 차원 축소로 완화 가능
- 차원축소
- 어떠한 수학적 변환을 통해 고차원 속성 공간을 저차원의 부분공간으로 변환
- 고차원일수록 분포하는 데이터 포인트들 간의 거리가 멀어져 이를 보완하기 위해 사용하는 방법
- 다차원 스케일링
- 원래 있던 공간에서의 샘플간의 거리를 저차원 공간에서도 유지가능
- 데이터 포인트들간의 유사도를 측정한 거리기반 차원축소 방법
- 거리 계산법은 유클리드나 맨하탄 거리 측정법이 있습니다.
- 최대한 고차원과 저차원 공간 상에서의 거리가 유사해야 합니다.
10.3 주성분 분석(PCA)
1) 개념
- 데이터 집합에서 주요한 변동성을 나타내는 축을 찾아내는 방법
- 데이터 간 분산이 가장 크게 나타나는 방향으로 축들이 생성
2) 효과
- 부분적인 정보가 손실되면서 과적합 방지의 효과
- 노이즈 데이터 제거
- 고차원에서 저차원으로 투영되면서 샘플의 밀도가 높아집니다.