210726 FUNDAMETALS 17. 비지도학습

시에나 Sienna·2021년 7월 26일
0

AIFFEL

목록 보기
16/66
post-custom-banner

비지도학습

  • training data로 정답(label)이 없는 데이터가 주어지는 학습방법
  • 데이터셋의 특징(feature) 및 패턴을 기반으로 모델 스스로가 판단

1. 클러스터링(Clustering)

  • 군집화
  • 명확한 분류 기준이 없는 상황에서도 데이터들을 분석하여 가까운(또는 유사한) 것들끼리 묶어 주는 작업

1) K-means

  • k 값이 주어져 있을 때, 가장 가까운 주어진 데이터들을 k 개의 클러스터로 묶는 알고리즘
  • k 값을 미리 지정

2) DBSCAN

  • DBSCAN(Density Based Spatial Clustering of Applications with Noise) 알고리즘
  • 밀도(density)기반의 군집 알고리즘
  • 군집의 개수(k값)를 명시하지 않으면서, 밀도 기반으로 군집을 예측하는 방법
  • 최초 임의의 점 하나로부터 퍼져나감
  • epsilon, minPts 값을 미리 지정

    epsilon: 클러스터의 반경
    minPts: 클러스터를 이루는 개체의 최솟값
    core point: 반경 epsilon 내에 minPts 개 이상의 점이 존재하는 중심점
    border point: 군집의 중심이 되지는 못하지만, 군집에 속하는 점
    noise point: 군집에 포함되지 못하는 점

2. 차원축소(dimensionality reduction)

1) PCA(Principal Component Analysis)

  • 주성분분석
  • 데이터를 나타내는 여러 특징(feature)들 중에서 어떤 특징이 가장 그 데이터를 잘 표현(represent) 하는지 알게 해주는 특징 추출(feature extraction)의 용도로 사용
  • 데이터 셋의 특징(feature)이 많아질수록, 각 특징인 하나의 차원 또한 증가함 ⇨ ∴ 차원이 증가할 수록 공가의 부피가 기하급수적으로 증가하여 데이터의 밀도는 희소(sparse)해짐
    • 데이터의 차원이 증가할 수록, 포인트 간의 거리 또한 증가 ⇨ 오버피팅(overfitting) 위험의 커짐
  • 기저(basis) : 새로운 좌표계 역할을 할 수 있는 벡터의 모음
  • PCA는 차원축소를 시도하되, 주어진 좌표축 방향이 아니라, 가장 분산이 길게 나오는 기저(basis) 방향을 찾아서 그 방향의 기저만 남기고, 덜 중요한 기저 방향을 삭제하는 방식으로 진행
  • 찾은 가장 중요한 기저를 주성분(Principal Component) 방향, 또는 pc축이라고 합니다.

2) T-SNE(T-Stochastic Neighbor Embedding)

  • 시각화에 많이 쓰이는 알고리즘
  • 기존 차원의 공간에서 가까운 점들은, 차원축소된 공간에서도 여전히 가깝게 유지되는 것을 목표
  • 고유한 물리적 정보량보다는 데이터들 간의 상대적 거리를 보존하는데 주력
post-custom-banner

0개의 댓글