[혼공단 6기]혼공머신 5주차

Enter·2021년 8월 8일

혼공단 6기

목록 보기
5/6

📖Chapter 06

📌비지도 학습

▪ 타깃값이 없을 때 데이터에 있는 패턴을 찾거나 데이터 구조를 파악하는 머신러닝 방식.
▪ 타깃이 없기 때문에 외부의 도움 없이 스스로 학습해야 함.

  • 대표적인 비지도 학습 작업: 군집, 차원 축소 등

📌히스토그램

▪ 구간별로 값이 발생한 빈도를 그래프로 표시한 것.
▪ 보통 x축이 값의 구간(계급), y축이 발생 빈도(도수)


📌군집

▪ 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업.

  • 클러스터: 군집 알고리즘으로 모은 샘플 그룹.

📌k-평균

▪ 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만든 뒤 클러스터의 중심 이동하고 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘.


📌클러스터 중심 (=센트로이드)

▪ k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값.
▪ 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용할 수 있음.


📌엘보우 방법

▪ 최적의 클러스터 개수를 정하는 방법 중 하나.
▪ 클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 클러스터 개수 k.

  • 이너셔: 클러스터 중심과 샘플 사이 거리의 제곱 합.

📌차원 축소

▪ 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류.
▪ 저장 공간을 줄이고 시각화하기 쉬움.
▪ 알고리즘의 성능을 높일 수 있음.


📌주성분 분석

▪ 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향(주성분)을 찾는 방법.
▪ 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있음.
▪ 일반적으로 주성분은 원본 데이터에 있는 특성 개수보다 작음.


📌설명된 분산

▪ 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 값.
▪ 첫 번째 주성분의 설명된 분산이 가장 큼.

  • 사이킷런의 PCA(주성분분석)클래스: 주성분 개수나 설명된 분산의 비율을 지정하여 주성분 분석을 수행할 수 있음.



💡기본미션: k-평균 알고리즘 작동 방식 설명하기

k-평균 알고리즘: 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만든 뒤 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘.

1. 무작위로 k개의 클러스터 중심을 정한다.
2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.
3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.
4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다.

💡선택미션: Ch 06-3. 문제 풀고 인증샷

✅확인문제

  1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?
    ① 10개
    ② 20개
    ③ 50개
    ④ 100개

답: ② 20개

  1. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
    ① (1000, 10)
    ② (10, 1000)
    ③ (10, 10)
    ④ (1000, 1000)

답: ① (1000, 10)

  1. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
    ① 첫 번째 주성분
    ② 다섯 번째 주성분
    ③ 열 번째 주성분
    ④ 알수없음

답: ① 첫 번째 주성분




📒혼자 공부하는 머신러닝+딥러닝 책을 참고하여 작성하였습니다.

https://www.hanbit.co.kr/store/books/look.php?p_code=B2002963743

profile
Cherish the moment :)

0개의 댓글