26일차 강의 : 통계 기반 데이터 활용 (군집)

Luis_J·2024년 10월 16일
0

MS_AI_School 5기

목록 보기
26/48
post-thumbnail

Summary

전처리 하고, 분석 모델 돌리고 끝나는 것이 아니라
실제로는 성능을 높이기 위해서 끊임없이 다양한 시도를 합니다.

Introduction

김자영 강사님
파이썬을 활용해 통계 기반 데이터 활용하는 법, 특히 군집에 관련해 소개합ㄴ다.

Code, Conept & Explanation

군집화

K-means clustering 중심 기반 군집화

사전에 클러스태 개수 k를 지정해야 합니다
특성의 스케일이 필요합니다.

평가방법
1. 엘보우 방법 (elbow method)
2. 실루엣 그래프 (silhouette plot)

최적의 군집 개수 구하는 법

엘보우(elbow) 기법 : 클러스터 개수를 늘려가면서 inertia (이너셔)의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법

이니셔 : 중심과 각 값들의 거리 제곱의 합

클러스터가 많아질수록 이니셔도 줄어듭니다.

실루엣 분석(Silhouette analysis)

다른 군집과는 거리가 떨어져 있고, 동일 군집끼리는 서로 뭉쳐져 있는가?
각 개별 데이터 포인트가 자신 군집과 얼마나 속하고, 다른 군집과 얼마나 멀었는지 확인

실루엣 그래프로 예상하는 좋은 군집화
1. 모양이 비슷한 게 좋음
2. 실루엣 계수도 높음

실루엣 계수 (Silhouette coefficient)

군집화의 품질을 평가하는 지표
-1~1 사이의 값을 가지며, 1에 가까울수록 군집화가 잘 됐습니다.

1) 1이면 가장 잘 군집
2) 0에 가까우면 다른 군집과 가까움
3) -이면 잘못 군집

DBSCAN 밀도 기반 군집화

Density-Based Spatial Clustering of Application with Noise
데이터의 밀도가 높은 영역을 클리스터로 정의

주요 파라미터

Epsilon : 입실론. 한 점을 중심으로 하는 반경의 크기

MinPts : 민포인트. 입실론 주변 영역 내에 포함되어야 할 최소 데이터 포인트 수

포인트 분류

Core Point : 입실론 반경 내에 민포인트 이상 포인트가 있는 점

Border Point : 코어 포인트의 입실론 반경 내에 있는 점

Noise Point : 이상치

장점 : 클러스터 개수를 사전에 지정할 필요 없습니다
불규칙한 모양의 클러스터도 찾아냅니다
이상치(Noise)를 효과적으로 식별합니다

한계 :
입실론과 민포인트를 어떻게 정하느냐에 따라 결과에 영향을 미칩니다

주성분분석

과적합 방지
리소스 적게 사용합니다
속도가 빨라집니다

누적 분산 비율 95% 넘을 때 사용합니다
2개 사용

Challenges & Solutions

Results

What I Learned & Insights

분석이 연역적으로 한 번에 정리될 수도 있지만
현실적으로는 귀납적으로 다양한 시도를 해야 함을 깨달았습니다.

2차 전지 최적 비율을 찾는 것은
아날로그적으로 접근해야 한다고 들었던 것 같은데
통계 기반 분석도 마찬가지임을 깨달았습니다.

Conclusion

파이썬을 활용하면 군집 관련 다양한 분석을 손쉽게 할 수 있습니다.
어떤 명령어를 사용하면 되는지,
어떤 문제를 마주했을 때 어떻게 해결하면 되는지 아는 것이 중요합니다.

profile
New life & History
post-custom-banner

0개의 댓글