머신러닝 활용 - 3회차

Data_Student·2024년 11월 25일

0

03. 비지도학습

1. K-Means Clustering

2. 군집평가 지표

3. 고객 세그멘테이션

머신러닝

목록 보기

5/10

03. 비지도학습

1. K-Means Clustering

수행 순서
- K개 군집 수 설정
- 임의의 중심을 선정
- 해당 중심점과 거리가 가까운 데이터를 그룹화
- 데이터의 그룹의 무게 중심으로 중심점을 이동
- 중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화
  (3 ~ 5 단계 반복)
특징
장점
- 일반적이고 적용하기 쉬움
단점
- 거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도 ↓
- 반복 횟수가 많을수록 시간이 느려짐
- 몇 개의 군집(K)을 선정할지 주관적임
- 평균을 이용하기 때문에(중심점) 이상치에 취약
Python 라이브러리
- sklearn.cluster.KMeans
  - n_cluster : 군집화 갯수
  - max_iter : 최대 반복 횟수
  - labels_ : 각 데이터 포인트가 속한 군집 중심점 레이블
  - cluster_centers : 각 군집 중심점의 좌표

2. 군집평가 지표

실루엣 계수
-군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정
좋은 군집화의 조건
- 실루엣 값이 높을수록(1에 가까울수록)
- 개별 군집의 평균 값의 편차가 크기 않아야 함
Python 라이브러리
- sklearn.metrics.sihouette_score : 전체 데이터의 실루엣 계수 평균값 반환
  - X : 데이터 세트
  - labels : 레이블
  - metrics : 측정 기준 (기본 : euclidean)

3. 고객 세그멘테이션

다양한 기준으로 고객을 분류하는 기법 ( 타켓 마케팅 )
RFM
- Recency : 가장 최근 구입 일에서 오늘까지의 시간
- Frequency : 상품 구매 횟수
- Monetary : 총 구매 금액

이전 포스트

머신러닝 활용 - 2회차

다음 포스트

머신러닝 활용 - 4회차

0개의 댓글

관련 채용 정보

한글과컴퓨터

ML 모델 개발자

한컴은 AI 혁신을 통해 더 쉽고 편한 디지털 문서 환경을 만드는 테크 기업으로, OCR 및 이미지 분류 SDK 개발을 맡은 ML 모델 개발자를 찾고 있습니다. PyTorch와 TensorFlow를 활용한 딥러닝 모델 개발 경험이 있다면, 글로벌 빅테크 기업으로 도약할 한컴의 미래에 함께하세요!

현대오토에버

[Tech] Machine Learning Engineer - AI 서비스 개발_대화/언어 서비스

AI 대화형 서비스 개발에 참여해 당신의 언어 AI 기술을 빛낼 기회를 잡으세요. Python과 딥러닝 경험을 활용하여 혁신적인 챗봇 서비스를 운영하며, 현대오토에버의 언어AI기술팀에 합류할 수 있습니다.

아키스케치

AI / Backend Engineer (AI / 백엔드 엔지니어)

Archisketch는 AI 기술과 3D 모델링으로 인테리어 시장을 혁신하는 B2B SaaS 스타트업입니다. 기존 시스템을 넘어서는 고성능 AI 기반 API 개발에 참여하며, 자율적인 근무 환경 속에서 뛰어난 동료들과 함께 성장할 기회를 제공합니다.