[ML] 딥러닝의 깊이 있는 이해를 위한 머신러닝 10-1 (K-MOOC)

daeungdaeung·2021년 8월 6일
0

Machine-Learning

목록 보기
17/25

학습 내용

  • Unsupervised Learning의 정의

  • Clustering의 정의

  • Clustering의 방법론

학습 목표

  • Unsupervised Learning을 실제로 활용할 수 있다.

  • Clustering 기법이란 무엇인지 설명할 수 있다.

  • 다양한 Clustering 기법을 알고 적절한 방법을 선택할 수 있다.

Unsupervised Learning

  • 특징

    • 주어진 데이터가 라벨이 없고 피처들만 존재하는 샘플들로 구성됨

    • 라벨이 제공될 수 없는 경우

      • Similarity search: 클래스 정보 없이 서로 다른 2개의 샘플이 비슷한 것인지 다른 것인지 분류하는 것

      • Data visualization: 10개 이상의 많은 dimension을 2개의 dimension으로 줄이는 것

      • Clustering: 라벨이 주어져 있지 않은 데이터를 비슷한 샘플끼리 하나의 덩어리로 뭉치고 결과값을 도출하는 것

  • Clustering

    • 특징

      • 라벨 데이터가 제공되지 않습니다.

      • 각각의 샘플이 어떤 그룹에 속하는지 출력합니다.

      • 결과가 좋은지 나쁜지 판단하기 어렵습니다.

      • 피쳐들의 상황관계 자체가 명확하게 설명되지 않아 정량적으로 측정하는 것이 어렵습니다.

        • 여러 클러스터링 알고리즘이 존재할 때 어떤 클러스터링 알고리즘이 현재 문제 해결 목적에 적합한지 결정하기 어렵다는 의미입니다.

        • 따라서 다양한 클러스터링 알고리즘을 접하고 경험적으로 선택해야합니다.

    • 클러스터링 활용

      • 여러 항성에 대한 정보를 제공할 때 항성을 분류하는 기준을 제시

      • 어떤 개의 종을 찾고자 할때 분류하는 기준을 제시

      • 콘텐츠 플랫폼에서 수많은 콘텐츠를 분류

      • 매장 운영 시 매장 방문객의 데이터를 취합하여 손님들의 특성과 방문에 대해 분류

    • 클러스터링 알고리즘 종류

      • 4가지의 알고리즘은 서로 다른 방식이 아니고 서로 섞이거나 겹칠 수 있어 완벽하게 구분되는 기준이 아닙니다.

      • parametric 클러스터링

        • 클러스터의 개수를 입력 받습니다.

        • 대표적으로 k-means 클러스트 알고리즘이 있습니다.

      • density-based 클러스터링

        • 서로 근접하고 있는 샘플들을 모두 한 덩어리로 뭉치는 알고리즘

        • 출력되는 클러스터의 개수는 덴시티 정의에 따라 계속 변합니다.

        • Non-Parametric clustering이라고도 불립니다.

        • 대표적으로 DBSCAN 알고리즘이 있습니다.

      • ensemble 클러스터링

        • 여러 개의 클러스터링 방법을 융합
      • hierarchical 클러스터링

        • 데이터 샘플이 동일한 환경에서 클러스터 크기가 작으면 클러스터의 개수는 그만큼 늘어납니다.

        • 최소한의 크기로 클러스터를 구성하고 그것들을 묶은 클러스터의 형태를 단계별로 찾아내는 방식입니다.

        • 대표적으로 Aglomerative 클러스터링 알고리즘이 있습니다.

profile
개발자가 되고싶읍니다...

0개의 댓글