전처리 하고, 분석 모델 돌리고 끝나는 것이 아니라
실제로는 성능을 높이기 위해서 끊임없이 다양한 시도를 합니다.
김자영 강사님
파이썬을 활용해 통계 기반 데이터 활용하는 법, 특히 군집에 관련해 소개합ㄴ다.
사전에 클러스태 개수 k를 지정해야 합니다
특성의 스케일이 필요합니다.
평가방법
1. 엘보우 방법 (elbow method)
2. 실루엣 그래프 (silhouette plot)
최적의 군집 개수 구하는 법
클러스터가 많아질수록 이니셔도 줄어듭니다.
다른 군집과는 거리가 떨어져 있고, 동일 군집끼리는 서로 뭉쳐져 있는가?
각 개별 데이터 포인트가 자신 군집과 얼마나 속하고, 다른 군집과 얼마나 멀었는지 확인
실루엣 그래프로 예상하는 좋은 군집화
1. 모양이 비슷한 게 좋음
2. 실루엣 계수도 높음
군집화의 품질을 평가하는 지표
-1~1 사이의 값을 가지며, 1에 가까울수록 군집화가 잘 됐습니다.
1) 1이면 가장 잘 군집
2) 0에 가까우면 다른 군집과 가까움
3) -이면 잘못 군집
Density-Based Spatial Clustering of Application with Noise
데이터의 밀도가 높은 영역을 클리스터로 정의
포인트 분류
장점 : 클러스터 개수를 사전에 지정할 필요 없습니다
불규칙한 모양의 클러스터도 찾아냅니다
이상치(Noise)를 효과적으로 식별합니다
한계 :
입실론과 민포인트를 어떻게 정하느냐에 따라 결과에 영향을 미칩니다
과적합 방지
리소스 적게 사용합니다
속도가 빨라집니다
누적 분산 비율 95% 넘을 때 사용합니다
2개 사용
분석이 연역적으로 한 번에 정리될 수도 있지만
현실적으로는 귀납적으로 다양한 시도를 해야 함을 깨달았습니다.
2차 전지 최적 비율을 찾는 것은
아날로그적으로 접근해야 한다고 들었던 것 같은데
통계 기반 분석도 마찬가지임을 깨달았습니다.
파이썬을 활용하면 군집 관련 다양한 분석을 손쉽게 할 수 있습니다.
어떤 명령어를 사용하면 되는지,
어떤 문제를 마주했을 때 어떻게 해결하면 되는지 아는 것이 중요합니다.