5주차. 비지도학습

Rampaging Turtle·2025년 2월 14일
0

K-평균 알고리즘 동작방식 설명

  • K-평균 알고리즘 : 타깃값이 없는 비지도학습의 하나로써 K개의 군집으로 유사한 특성을 지닌 데이터를 군집화(클러스터링) 하는 알고리즘
  • 동작방식
    1. 사용자가 지정한 K의 갯수만큼 임의의 클러스터 중심을 지정한다.
    2. 각 클러스터 중심에 가까운 샘플을 군집화한다.
    3. 클러스터 중심을 다시 계산하여 중심을 이동한다.
    4. 클러스터 중심에 가까운 샘플을 군집화한다.(2번, 3번 반복)
    5. 클러스터에 중심의 변동이 없으면 반복 알고리즘을 종료한다.

주성분 분석

  1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분의 갯수는 몇 개일까요?
    • 주성분은 원본 차원과 같고 주성분으로 바꾼 데이터는 차원이 줄어들기 때문에 정답은 20
  2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분으로 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
    • 각 샘플 원본데이터를 주성분에 투영하여 특성의 갯수를 줄이므로 샘플의 갯수는 그대로 1000개, 각 샘플별 특성의 갯수는 10개가 되므로 데이터셋의 크기는 (1000, 10)이 된다.
  3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
    • 주성분 분석은 가장 분산이 큰 방향부터 찾기에 첫번째 주성분 입니다.
profile
소프트웨어 엔지니어

0개의 댓글