Fund. 17 비지도학습 Unsupervised learning

나융·2021년 10월 15일

aiffel

목록 보기

7/12

굉장히 중요한 컨셉인 것 같다 종국에는 이 방향으로 나가게 되는 것은 아닐까?

Density Based Spatial Clustering of Applications with Noise
밀도를 기반으로 군집 탐색 수행
군집의 개수를 지정할 필요가 없다 -> 중요함
http://primo.ai/index.php?title=Density-Based_Spatial_Clustering_of_Applications_with_Noise_(DBSCAN)

클러스터링 기법도 엄청 다양한 것 같다. 직접 모델을 사용할 경우는 적겠지만, 데이터셋을 제작할 경우에 유용하게 사용될 수 있을 것 같다.

데이터 분포의 주성분(데이터의 분산이 가장 큰 방향벡터)을 탐색한다.
서로 직교Orthogonal하는 기저Basis들을 찾아 고차원 공간을 저차원 공간으로 사영Projection
기존의 feature를 선형 결함linear combination하는 방식

이전에 접해본 경험이 있는데 요새도 여러 자료에서 자주 확인할 수 있다.
다만 사람이 확인하기 어려운 데이터 표현에 어떤 의미가 있는지? 잘 알고 싶은 마음

T-stochastic Neighbor Embedding

'PCA는 데이터가 가진 교유한 물리적 정보량을 보존하는데 주력하지만, T-SNE는 교유한 물리적 정보량 보다 데이터들 간의 상대적 거리를 보존하는데 주력함'
실제 정보가 얼마나 담겨있느냐 보다, 인식하기 얼마나 편한가?에 초점이 맞춰져 있는 것 같다

PCA, T-SNE 두 가지 개념을 비교하면서 볼 수 있어서 더 이해에 도움이 된 것 같다.
모델의 성능이 기계에 초점 맞춰져 있는것이 아니라 사람의 인식 적인 부분이 충분이 내포되어있어야한다는 점이 흥미로웠다.(결국 인간이 사용할 기술이기 떄문에)
인공지능이 인간을 지배하는 미래는 인간이 스스로 선택하지 않는 한 오지 않을 것 같다는 예감이 든다