스파르타 코딩 자료
스파르타코딩클럽데이터분석종합반_-_5주차.pdf
[수업 목표]
1. 실전을 가정하고 고객 데이터를 다뤄본다.
2. 다수의 테이블을 동시에 다루는 것에 익숙해진다.
3. 고객 데이터로부터 고객의 행동을 예측해본다.
4. 고객 데이터로부터 회원의 탈퇴를 예측한다.
[목차]
- 5주차 오늘 배울 것
- 탐색적 데이터 분석 (1)
- 탐색적 데이터 분석 (2) - 데이터 집계
- 탐색적 데이터 분석 (3)
- 탐색적 데이터 분석 (4) - 인사이트 도출
- 고객 행동 예측 (1) - 클러스터링 개념
- 고객 행동 예측 (2) - 클러스터링
- 고객 행동 예측 (3) - 클러스터링 시각화
- 고객 행동 예측 (4) - 예측 모델 만들기
- 회원 탈퇴 예측(1)
- 회원 탈퇴 예측(2)
- 회원 탈퇴 예측(3)
- 회원 탈퇴 예측(4)
- 회원 탈퇴 예측(5)
- 5주차 끝 & 숙제 설명
HW. 5주차 숙제 답안 코드
01. 5주차 오늘 배울 것
- 회원 데이터 탐색적 데이터 분석
- 선형 회귀를 이용한 회원 행동 예측
- K-Means를 사용하여 회원 데이터를 클러스터링
- 결정 트리 모델을 이용한 회원 탈퇴 예측
👨🏫 customer.zip 파일. 5주차 내내 데이터분석가가 됬다고 가정하고, 대형 스포츠 센터로부터 어떤 데이터가 주어졌다 라고 생각해보기.
이 데이터들은 그 스포츠센터를 이용하는 고객정보나 회원데이터. 이것을 이용해서 쭉 진행할 예정.
- 압축해제 하면 쭉 7개 정도가 들어있는데 선택적으로 csv 데이터를 업로드 해서 colab에서 실습 진행할 예정.
새로운 개념인 K- 클러스터링. 고객들의 정보로 그룹으로 나눠서 마케팅 하고싶다던가. 지금 주어진 정보로는 그냥 눈으로 봤을때는 어떻게 그룹으로 나눌지 모를때 K-Means 클러스터링을 사용해서 좀 무작위로 정보를 가지고 있는 거 같아보이는 고객들도 그룹으로 세분화 시킬수 있다. 그러면 이 특정 그룹에 대해서만 마케팅을 진행한다던지 해볼수 있다.
- 또 새로운 개념. 결정 트리. 어떤 데이터들로부터 어떤 선택하는 그 과정을 트리형식으로(도식화) 중점적으로 무언가를 예측해내는 머신러닝 모델이다. 이것으로 해서 한번 예측을 진행할 것이다.
- 저번 주차에는 회귀만 썼다면, 이번주차에는 결정트리도 써보는 것.
- 다음시간에 본격적으로 탐색적 데이터 분석으로 진행.
02. 탐색적 데이터 분석 (1)
- 1) 데이터 로드
- 2) 레프트 조인
- 3) 데이터 가공
03. 탐색적 데이터 분석 (2) - 데이터 집계
- 2) 데이터 집계 - 가설 발견
- 3) 데이터 집계 - 통계량 파악
04. 탐색적 데이터 분석 (3)
- 4) 이용 이력 데이터로부터 정기 이력 플래그 작성
- 5) 고객 데이터와 이용 이력 데이터의 결합
- 6) 회원 기간을 계산해서 열로 추가하기
05. 탐색적 데이터 분석 (4) - 인사이트 도출
- 7) 고객 행동의 각종 통계량 파악
- 8) 탈퇴 회원과 지속 회원의 차이를 파악하자
06. 고객 행동 예측 (1) - 클러스터링 개념
- 9) 데이터 로드
- 10) 클러스터링 알고리즘 : K-means
07. 고객 행동 예측 (2) - 클러스터링
- 11) 클러스터링
- 12) 클러스터링 결과 분석
08. 고객 행동 예측 (3) - 클러스터링 시각화
- 13) 클러스터링 시각화
- 14) 탈퇴 회원의 결향
09. 고객 행동 예측 (4) - 예측 모델 만들기
- 15) 다음 달 이용 횟수 예측을 위한 데이터 준비
- 16) 선형 회귀로 다음달 이용 횟수를 예측해보자
10. 회원 탈퇴 예측(1)
- 17) 데이터 로드 및 이용 데이터(uselog) 수정
11. 회원 탈퇴 예측(2)
- 18) 탈퇴전월의 탈퇴고객데이터(customer)를 작성
- 19) 지속회원의 데이터를 작성
12. 회원 탈퇴 예측(3)
- 22) Decision Tree
- 23) 결측값 제거
- 24) 카테고리형 변수를 처리할수 있도록 가공
- 25) 결정 트리를 사용해서 탈퇴예측모델을 작성
13. 회원 탈퇴 예측(4)
- 26) 모델에 대한 평가와 회원 탈퇴 예측
- 27) 정확도 상승을 위한 방법 - 변수의 추가
14. 회원 탈퇴 예측(5)
- 28) Precision과 Recall
- 29) Accuracy
- 30) F1-Score
- 31) 분류 머신러닝 모델 활용 및 평가
15. 5주차 끝 & 숙제 설명
- 32) 숙제 설명
- [코드스니펫] 5주차 과제 정답 링크