[ZB] Sample Project -1

porii·2024년 10월 4일

[edu] zerobase

목록 보기
11/28

1. 식품

  • 데이터 EDA + Regression 예측 (다항회귀)
도메인 관련 흥미도★★☆☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • date 형식이 일-월-년도 였는데 pd.datetime(df[’Date’])에서 오류가 생김
    pd.datetime(df[’Date’], format=’%d-%m-%Y’)로 했을 때는 작동했으나, 기존 결과와 차이가 있었다 — why?

4. 카드

  • 데이터 EDA
도메인 관련 흥미도★★★★☆
도메인 관련 지식(현재)★☆☆☆☆

5. 유통

  • 데이터 EDA + 연관규칙분석(장바구니분석)
도메인 관련 흥미도★★★☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • 새로 알게 된 것
    • from mlxtend.preprocessingimport TransactionEncoder
    • 장바구니분석/연관규칙학습 도구
      각 거래 내에서 발생한 아이템들의 집합을 2차원 배열 형태로 변환
      • te.fit(records) - 리스트 records 학습
      • te.transform(records) - records의 데이터 이진법으로 변환
    • 연관규칙 = 비지도학습.대규모 거래 데이터로부터 함께 구매될 규칙을 도출
      • 추천 시스템- 연관성 높은 상품 추천, 사건의 규칙
      • Apriori 알고리즘
        • 빈발항목집합(최소 지지도 이상을 갖는 항목집합)을 통해 규칙 생성
      • (+) 많은 연관규칙 발견 (-) 비즈니스 측면에서 의미있는 규칙 발견 어려움
      • 원리
        1. 전체 데이터셋에서 빈번하게 발생하는 유형 발견
        2. 최소지지도 이상을 만족하는 빈발항목 집합 발견
        3. 빈발항목으로 집합 생성
        4. 2-3 단계 반복. 새로운 빈발항목집합 안생길때까지
        5. 빈발항목집합 활용하여 연관규칙 생성
      • 예시
        • 암 데이터에서 빈번히 발생하는 DNA 패턴
        • 마트 장바구니 분석 통해 상품 추천 or 진열
        • 설비 고장 발생 전 알람코드 패턴
      • 규칙
        1. Support | 지지도 : 전체 항목 중 해당 규칙 나올 확률
        2. Confidence | 신뢰도 : 조건부확률. A 거래 중 B가 포함된 거래 확률
        3. Lift | 향상도 : 임의로 B가 나올 확률(자연확률) 대비 A와 B가 같이 나올 확률 - 확률끼리의 비율

6. 이커머스

  • 데이터 EDA + Segmentation
도메인 관련 흥미도★★☆☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • RFM - Recency, Frequency, Monetary
  • 전처리에서 데이터 분포 확인 위해 seaborn과 matplotlib 사용
  • 새로 알게 된 것
    • Min max scale = 최대값을 1, 최소값을 0으로 표준화하는 기법
      minmax_scale(df['x'], axis=0, copy=True)

7. 부동산 - Airbnb

  • 데이터 EDA + 하이퍼 파라미터 튜닝
도메인 관련 흥미도★★★★☆
도메인 관련 지식(현재)★☆☆☆☆
  • 아쉬운 점
    • 데이터의 양 부족

10. 콘텐츠 - GA

  • 데이터 EDA
도메인 관련 흥미도★★★☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • 알아야 할 것
    • KPI (Key Performance Indicators)
    • Conversion Rate : 유입 후 거래로 이어지는 비율
  • 새로 알게 된 것
    • 시각화 툴 - plotly

13. 숙박 - 예약 수요

  • 데이터 EDA + Classification 모델
도메인 관련 흥미도★★★☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • 알아야 할 것
    • 추후 process3 다시 제대로 보기
  • 새로 알게 된 것
    • data mart

14. 영화 - disney

  • 데이터 EDA + Regression 예측
도메인 관련 흥미도★★★★☆
도메인 관련 지식(현재)★☆☆☆☆

17. 모빌리티

  • 데이터 EDA
도메인 관련 흥미도★★★☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • 새로 알게 된 것
    • circle 그래프
    • 그래프 많음
    • 산점도

20. 인사

  • 데이터 EDA + Classification 모델
도메인 관련 흥미도★★★☆☆
도메인 관련 지식(현재)★☆☆☆☆
  • 데이터 내에서 추출한 상태에서 - 전체적 흐름도 보기도 하지만, 그 안에서 그룹별로 바라보는 시선도 필요
  • 모델링 함수를 알아야 할 것 같다.

0개의 댓글