1. 식품
- 데이터 EDA + Regression 예측 (다항회귀)
| |
|---|
| 도메인 관련 흥미도 | ★★☆☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
- date 형식이 일-월-년도 였는데 pd.datetime(df[’Date’])에서 오류가 생김
pd.datetime(df[’Date’], format=’%d-%m-%Y’)로 했을 때는 작동했으나, 기존 결과와 차이가 있었다 — why?
4. 카드
| |
|---|
| 도메인 관련 흥미도 | ★★★★☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
5. 유통
| |
|---|
| 도메인 관련 흥미도 | ★★★☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
- 새로 알게 된 것
from mlxtend.preprocessingimport TransactionEncoder
- 장바구니분석/연관규칙학습 도구
각 거래 내에서 발생한 아이템들의 집합을 2차원 배열 형태로 변환
te.fit(records) - 리스트 records 학습
te.transform(records) - records의 데이터 이진법으로 변환
- 연관규칙 = 비지도학습.대규모 거래 데이터로부터 함께 구매될 규칙을 도출
- 추천 시스템- 연관성 높은 상품 추천, 사건의 규칙
- Apriori 알고리즘
- 빈발항목집합(최소 지지도 이상을 갖는 항목집합)을 통해 규칙 생성
- (+) 많은 연관규칙 발견 (-) 비즈니스 측면에서 의미있는 규칙 발견 어려움
- 원리
- 전체 데이터셋에서 빈번하게 발생하는 유형 발견
- 최소지지도 이상을 만족하는 빈발항목 집합 발견
- 빈발항목으로 집합 생성
- 2-3 단계 반복. 새로운 빈발항목집합 안생길때까지
- 빈발항목집합 활용하여 연관규칙 생성
- 예시
- 암 데이터에서 빈번히 발생하는 DNA 패턴
- 마트 장바구니 분석 통해 상품 추천 or 진열
- 설비 고장 발생 전 알람코드 패턴
- 규칙
- Support | 지지도 : 전체 항목 중 해당 규칙 나올 확률
- Confidence | 신뢰도 : 조건부확률. A 거래 중 B가 포함된 거래 확률
- Lift | 향상도 : 임의로 B가 나올 확률(자연확률) 대비 A와 B가 같이 나올 확률 - 확률끼리의 비율
6. 이커머스
| |
|---|
| 도메인 관련 흥미도 | ★★☆☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
- RFM - Recency, Frequency, Monetary
- 전처리에서 데이터 분포 확인 위해 seaborn과 matplotlib 사용
- 새로 알게 된 것
- Min max scale = 최대값을 1, 최소값을 0으로 표준화하는 기법
minmax_scale(df['x'], axis=0, copy=True)
7. 부동산 - Airbnb
| |
|---|
| 도메인 관련 흥미도 | ★★★★☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
10. 콘텐츠 - GA
| |
|---|
| 도메인 관련 흥미도 | ★★★☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
- 알아야 할 것
- KPI (Key Performance Indicators)
- Conversion Rate : 유입 후 거래로 이어지는 비율
- 새로 알게 된 것
13. 숙박 - 예약 수요
- 데이터 EDA + Classification 모델
| |
|---|
| 도메인 관련 흥미도 | ★★★☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
14. 영화 - disney
| |
|---|
| 도메인 관련 흥미도 | ★★★★☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
17. 모빌리티
| |
|---|
| 도메인 관련 흥미도 | ★★★☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
20. 인사
- 데이터 EDA + Classification 모델
| |
|---|
| 도메인 관련 흥미도 | ★★★☆☆ |
| 도메인 관련 지식(현재) | ★☆☆☆☆ |
- 데이터 내에서 추출한 상태에서 - 전체적 흐름도 보기도 하지만, 그 안에서 그룹별로 바라보는 시선도 필요
- 모델링 함수를 알아야 할 것 같다.