[패스트캠퍼스] 머신러닝 강의 5주차 학습일지

김나래·2022년 9월 27일
0

학습일지

목록 보기
5/5

강의 제목 : 머신러닝 & AI 첫걸음 시작하기

#패스트캠퍼스 #내일배움카드취업 #국비지원교육 #K디지털기초역량훈련 #과정명

학습 목표

1. Clustering의 이해
- Clustering의 종류에 따른 개념과 방법을 이해할 수 있다.
- Clustering 방법들에 대해 직접 실습할 수 있다.

2. Imbalanced data 이해
- Imbalanced data의 원인과 문제점을 알 수 있다.
- Imbalanced data 문제를 해결하는 방법을 이해할 수 있다.

학습 내용

1. Clustering

K-means clustering

  • 각 데이터에 대해 가장 가까운 중심점을 찾으며 kk개의 군집으로 분류, 군집이 바뀌지 않을때까지 반복
  • 가장 적합한 kk는 무엇일까?
    • Elbow method : 군집 간 분산 / 전체 분산
      비율의 증가분이 줄어드는 지점을 kk로 설정
    • Silhouette method : 비유사성을 계산한 후 kk 설정
  • 초기 중심값, noise, outlier에 민감 \rightarrow 평균 대신 중간점(medoids) 사용

Hierarchical clustering

  • 유사행렬도를 계산하여 가까운 집단부터 순차적으로 묶어나가는 방식
  • dendogram으로 시각화 가능. kk를 정할 필요가 없다.

DBSCAN clustering

  • density based clustering 중 가장 우수하다고 알려짐
  • eps-neighbors와 MinPts를 통해 군집을 구성
  • 시작점에 따라 군집이 달라진다. Eps의 크기에 민감. 군집별 밀도가 다른 경우 제대로 이뤄지지 않음.

2. Imbalanced Data Problem

원인 & 문제점

  • 소수(minority) 데이터가 다수(majority) 데이터에 비해 많이 작을 때 발생하는 문제
  • 모델이 소수의 데이터를 무시하는 경향이 있어 분류 성능이 나빠질 수 있다.

Oversampling, minority data 부풀리기

  • 데이터마다 편차 \uparrow, minority generalization 경향 있음.
  • Random over Sampling : minority data에서 sampling
  • SMOTE(Synthetic Minority Over Sampling Technique) :
    1) KNN으로 가까운 Point 찾는다. 2) Point 사이에서 sampling
  • BLSMOTE, DBSMOTE 등....

Undersampling, majority data 줄이기

  • Decision boundary에 있는 data를 없앴을 때 악영향을 끼칠 수 있다.
  • Random under Sampling : majority data에서 sampling 후 삭제
  • Tomek Links : majority data 근처의 minority data sampling 후 삭제
  • Easy Ensamble :
    1) majority, minority 동일하게 sampling
    2) sampling된 데이터를 통해 ensamble 학습
    3) K번 반복
  • BalanceCasade 등...

Hybrid resampling : Oversampling + Undersampling

  • SMOTE(Oversampling) + Tomek Links(Undersampling)
  • SMOTE-IPF : SMOTE 단점을 보완하기 위해 IPF 결합

느낀점

언제 다 듣나했는데 벌써 끝났다.
더 열심히 들었어야 했는데 이래서 바쁘다 저래서 바쁘다 핑계댔던 날들이 많았던 것 같다.
그래도 한번씩 실습해보면서 머신러닝이 어떤 분야인가에 대해 알아볼 수 있었던 시간이었다.
복습도 다시 하고 혼자만의 미니 프로젝트들도 시도해봐야겠다.

profile
김나래입니다.

0개의 댓글