10. 차원 축소와 척도 학습

maro·2024년 1월 15일

단단한 머신러닝-스터디

목록 보기

8/8

'단단한 머신러닝' 책과 스터디 내용을 기반으로 작성하였습니다.

10.1 K-최근접 이웃 기법

1) KNN

자주 사용되는 지도 학습방법
어떠한 거리 척도에 기반하여 인접한 K개의 데이터 포인트를 찾아 정보를 바탕으로 예측 및 분류를 진행
분류 : 투표(다수결) or 가중 투표(거리 바탕)
회귀 : 단순 평균 or 가중 평균 (거리 바탕)
K의 갯수와 거리 측정법에 따라 성능의 차이가 발생
거리 계산법이 적절 and 샘플(독립항등분포) + 베이즈 최적 분류법 -> 일반 오차율 보다 좋습니다.
베이즈 최적 분류법
- 훈련 데이터 셋을 바탕으로 새로운 데이터가 주어졌을 때 가장 적절한 분류는 사후확률을 기반으로 한 가중치를 반영한 모든 가설의 예측의 합
- 즉 사후확률 기반 모든 가설 확률의 합이 가장 최적 분류입니다.

2) 모수적 & 비모수적

모수적 모델
- 알려진 정규분포나 독립 변수 등 사전에 가정된 조건이 있는 경우
- ex) 선형회귀 모델 - 독립변수가 종속변수를 예측하는데 사용되며 정규분포임을 가정합니다.
비모수적 모델
- 사전에 지정된 가정 없이 주위 K개의 특징을 바탕으로 예측 or 분류

10.2 임베딩

1) 개념

임베딩은 수치로 제공되지 않는 데이터를 수치형으로 변환하는 과정을 거쳐 데이터를 벡터 형태로 표현하는 방식입니다.
데이터 포인트들 간의 관계와 패턴 정보도 나타내고 있습니다.

2) 학습법

단일 속성만 고려한다면 문제가 없을 수도 있지만 속성이 많다면 최소한의 샘플 갯수가 셀 수 없이 늘어납니다.
또 거리에 기반한 학습의 경우 고차원 공간상의 거리를 계산함에 있어 내적 계산 등 복잡한 경우가 있습니다.

3) 차원의 저주

고차원으로 갈수록 거리 계산이 어려워지고 학습의 성능이 떨어지는 현상
차원 축소로 완화 가능
차원축소
- 어떠한 수학적 변환을 통해 고차원 속성 공간을 저차원의 부분공간으로 변환
- 고차원일수록 분포하는 데이터 포인트들 간의 거리가 멀어져 이를 보완하기 위해 사용하는 방법
다차원 스케일링
- 원래 있던 공간에서의 샘플간의 거리를 저차원 공간에서도 유지가능
- 데이터 포인트들간의 유사도를 측정한 거리기반 차원축소 방법
- 거리 계산법은 유클리드나 맨하탄 거리 측정법이 있습니다.
- 최대한 고차원과 저차원 공간 상에서의 거리가 유사해야 합니다.

10.3 주성분 분석(PCA)

1) 개념

데이터 집합에서 주요한 변동성을 나타내는 축을 찾아내는 방법
데이터 간 분산이 가장 크게 나타나는 방향으로 축들이 생성

2) 효과

부분적인 정보가 손실되면서 과적합 방지의 효과
노이즈 데이터 제거
고차원에서 저차원으로 투영되면서 샘플의 밀도가 높아집니다.

이전 포스트

09. 클러스터링

0개의 댓글