210726 FUNDAMETALS 17. 비지도학습

시에나 Sienna·2021년 7월 26일

AIFFEL FUNDAMENTAL

0

AIFFEL

목록 보기

16/66

post-custom-banner

비지도학습

training data로 정답(label)이 없는 데이터가 주어지는 학습방법
데이터셋의 특징(feature) 및 패턴을 기반으로 모델 스스로가 판단

1. 클러스터링(Clustering)

군집화
명확한 분류 기준이 없는 상황에서도 데이터들을 분석하여 가까운(또는 유사한) 것들끼리 묶어 주는 작업

1) K-means

k 값이 주어져 있을 때, 가장 가까운 주어진 데이터들을 k 개의 클러스터로 묶는 알고리즘
k 값을 미리 지정

2) DBSCAN

DBSCAN(Density Based Spatial Clustering of Applications with Noise) 알고리즘
밀도(density)기반의 군집 알고리즘
군집의 개수(k값)를 명시하지 않으면서, 밀도 기반으로 군집을 예측하는 방법
최초 임의의 점 하나로부터 퍼져나감
epsilon, minPts 값을 미리 지정

epsilon: 클러스터의 반경
minPts: 클러스터를 이루는 개체의 최솟값
core point: 반경 epsilon 내에 minPts 개 이상의 점이 존재하는 중심점
border point: 군집의 중심이 되지는 못하지만, 군집에 속하는 점
noise point: 군집에 포함되지 못하는 점

2. 차원축소(dimensionality reduction)

1) PCA(Principal Component Analysis)

주성분분석
데이터를 나타내는 여러 특징(feature)들 중에서 어떤 특징이 가장 그 데이터를 잘 표현(represent) 하는지 알게 해주는 특징 추출(feature extraction)의 용도로 사용
데이터 셋의 특징(feature)이 많아질수록, 각 특징인 하나의 차원 또한 증가함 ⇨ ∴ 차원이 증가할 수록 공가의 부피가 기하급수적으로 증가하여 데이터의 밀도는 희소(sparse)해짐
- 데이터의 차원이 증가할 수록, 포인트 간의 거리 또한 증가 ⇨ 오버피팅(overfitting) 위험의 커짐
기저(basis) : 새로운 좌표계 역할을 할 수 있는 벡터의 모음
PCA는 차원축소를 시도하되, 주어진 좌표축 방향이 아니라, 가장 분산이 길게 나오는 기저(basis) 방향을 찾아서 그 방향의 기저만 남기고, 덜 중요한 기저 방향을 삭제하는 방식으로 진행
찾은 가장 중요한 기저를 주성분(Principal Component) 방향, 또는 pc축이라고 합니다.

2) T-SNE(T-Stochastic Neighbor Embedding)

시각화에 많이 쓰이는 알고리즘
기존 차원의 공간에서 가까운 점들은, 차원축소된 공간에서도 여전히 가깝게 유지되는 것을 목표
고유한 물리적 정보량보다는 데이터들 간의 상대적 거리를 보존하는데 주력

시에나 Sienna

이전 포스트

210723 FUNDAMENTAL 16. Regression

다음 포스트

210727 EXPLORATION 5. 나랑 닮은 연예인 찾기

post-custom-banner

0개의 댓글