강의 제목 : 머신러닝 & AI 첫걸음 시작하기
#패스트캠퍼스 #내일배움카드취업 #국비지원교육 #K디지털기초역량훈련 #과정명
학습 목표
1. Clustering의 이해
- Clustering의 종류에 따른 개념과 방법을 이해할 수 있다.
- Clustering 방법들에 대해 직접 실습할 수 있다.
2. Imbalanced data 이해
- Imbalanced data의 원인과 문제점을 알 수 있다.
- Imbalanced data 문제를 해결하는 방법을 이해할 수 있다.
학습 내용
1. Clustering
K-means clustering
- 각 데이터에 대해 가장 가까운 중심점을 찾으며 k개의 군집으로 분류, 군집이 바뀌지 않을때까지 반복
- 가장 적합한 k는 무엇일까?
- Elbow method : 군집 간 분산 / 전체 분산
비율의 증가분이 줄어드는 지점을 k로 설정
- Silhouette method : 비유사성을 계산한 후 k 설정
- 초기 중심값, noise, outlier에 민감 → 평균 대신 중간점(medoids) 사용
Hierarchical clustering
- 유사행렬도를 계산하여 가까운 집단부터 순차적으로 묶어나가는 방식
- dendogram으로 시각화 가능. k를 정할 필요가 없다.
DBSCAN clustering
- density based clustering 중 가장 우수하다고 알려짐
- eps-neighbors와 MinPts를 통해 군집을 구성
- 시작점에 따라 군집이 달라진다. Eps의 크기에 민감. 군집별 밀도가 다른 경우 제대로 이뤄지지 않음.
2. Imbalanced Data Problem
원인 & 문제점
- 소수(minority) 데이터가 다수(majority) 데이터에 비해 많이 작을 때 발생하는 문제
- 모델이 소수의 데이터를 무시하는 경향이 있어 분류 성능이 나빠질 수 있다.
Oversampling, minority data 부풀리기
- 데이터마다 편차 ↑, minority generalization 경향 있음.
- Random over Sampling : minority data에서 sampling
- SMOTE(Synthetic Minority Over Sampling Technique) :
1) KNN으로 가까운 Point 찾는다. 2) Point 사이에서 sampling
- BLSMOTE, DBSMOTE 등....
Undersampling, majority data 줄이기
- Decision boundary에 있는 data를 없앴을 때 악영향을 끼칠 수 있다.
- Random under Sampling : majority data에서 sampling 후 삭제
- Tomek Links : majority data 근처의 minority data sampling 후 삭제
- Easy Ensamble :
1) majority, minority 동일하게 sampling
2) sampling된 데이터를 통해 ensamble 학습
3) K번 반복
- BalanceCasade 등...
Hybrid resampling : Oversampling + Undersampling
- SMOTE(Oversampling) + Tomek Links(Undersampling)
- SMOTE-IPF : SMOTE 단점을 보완하기 위해 IPF 결합
느낀점
언제 다 듣나했는데 벌써 끝났다.
더 열심히 들었어야 했는데 이래서 바쁘다 저래서 바쁘다 핑계댔던 날들이 많았던 것 같다.
그래도 한번씩 실습해보면서 머신러닝이 어떤 분야인가에 대해 알아볼 수 있었던 시간이었다.
복습도 다시 하고 혼자만의 미니 프로젝트들도 시도해봐야겠다.