[패스트캠퍼스] 머신러닝 강의 5주차 학습일지

김나래·2022년 9월 27일

K디지털기초역량훈련과정 국비지원교육 내일배움카드취엄 머신러닝 & AI 첫걸음 시작하기 패스트캠퍼스

학습일지

목록 보기

5/5

강의 제목 : 머신러닝 & AI 첫걸음 시작하기

#패스트캠퍼스 #내일배움카드취업 #국비지원교육 #K디지털기초역량훈련 #과정명

학습 목표

1. Clustering의 이해
- Clustering의 종류에 따른 개념과 방법을 이해할 수 있다.
- Clustering 방법들에 대해 직접 실습할 수 있다.

2. Imbalanced data 이해
- Imbalanced data의 원인과 문제점을 알 수 있다.
- Imbalanced data 문제를 해결하는 방법을 이해할 수 있다.

학습 내용

1. Clustering

K-means clustering

각 데이터에 대해 가장 가까운 중심점을 찾으며 $k$ 개의 군집으로 분류, 군집이 바뀌지 않을때까지 반복
가장 적합한 $k$ 는 무엇일까?
- Elbow method : 군집 간 분산 / 전체 분산
  비율의 증가분이 줄어드는 지점을 $k$ 로 설정
- Silhouette method : 비유사성을 계산한 후 $k$ 설정
초기 중심값, noise, outlier에 민감 $\rightarrow$ 평균 대신 중간점(medoids) 사용

Hierarchical clustering

유사행렬도를 계산하여 가까운 집단부터 순차적으로 묶어나가는 방식
dendogram으로 시각화 가능. $k$ 를 정할 필요가 없다.

DBSCAN clustering

density based clustering 중 가장 우수하다고 알려짐
eps-neighbors와 MinPts를 통해 군집을 구성
시작점에 따라 군집이 달라진다. Eps의 크기에 민감. 군집별 밀도가 다른 경우 제대로 이뤄지지 않음.

2. Imbalanced Data Problem

원인 & 문제점

소수(minority) 데이터가 다수(majority) 데이터에 비해 많이 작을 때 발생하는 문제
모델이 소수의 데이터를 무시하는 경향이 있어 분류 성능이 나빠질 수 있다.

Oversampling, minority data 부풀리기

데이터마다 편차 $\uparrow$ , minority generalization 경향 있음.
Random over Sampling : minority data에서 sampling
SMOTE(Synthetic Minority Over Sampling Technique) :
1) KNN으로 가까운 Point 찾는다. 2) Point 사이에서 sampling
BLSMOTE, DBSMOTE 등....

Undersampling, majority data 줄이기

Decision boundary에 있는 data를 없앴을 때 악영향을 끼칠 수 있다.
Random under Sampling : majority data에서 sampling 후 삭제
Tomek Links : majority data 근처의 minority data sampling 후 삭제
Easy Ensamble :
1) majority, minority 동일하게 sampling
2) sampling된 데이터를 통해 ensamble 학습
3) K번 반복
BalanceCasade 등...

Hybrid resampling : Oversampling + Undersampling

SMOTE(Oversampling) + Tomek Links(Undersampling)
SMOTE-IPF : SMOTE 단점을 보완하기 위해 IPF 결합

느낀점

언제 다 듣나했는데 벌써 끝났다.
더 열심히 들었어야 했는데 이래서 바쁘다 저래서 바쁘다 핑계댔던 날들이 많았던 것 같다.
그래도 한번씩 실습해보면서 머신러닝이 어떤 분야인가에 대해 알아볼 수 있었던 시간이었다.
복습도 다시 하고 혼자만의 미니 프로젝트들도 시도해봐야겠다.

김나래

김나래입니다.

이전 포스트