TIL(24.07.23.)

codataffee·2024년 7월 23일

TIL

목록 보기
106/135
post-thumbnail

#INTRO

그냥 하자

오늘도 화이팅 !


#최종 프로젝트 진행

  • 프로젝트 레퍼런스 수집 및 인사이트 학습

    • 10가지 비즈니스 분석 프로젝트 아이디어 (Dataquest) : 참고 링크

      • 앱 스토어 및 구글 플레이 마켓에서 수익성 있는 앱 프로필 분석 :
        앱 데이터 분석을 통해 인기 앱 및 수익성 높은 앱 카테고리 도출

      • Hacker News 게시물 탐색 :
        Python을 사용하여 게시물 트렌드 및 사용자 참여도 분석

      • 직원 퇴사 설문조사 분석 :
        퇴사 데이터를 정리 및 분석하여 퇴사 이유 파악

      • GDP와 기대 수명의 변화 시각화 :
        Power BI를 사용해 세계 여러 지역의 경제 및 건강 데이터 시각화

      • BI 앱 구축 :
        교육 플랫폼의 코스 완료율 및 만족도 데이터 분석

      • 비즈니스 인텔리전스 플롯 :
        Tableau를 활용해 판매 데이터 시각화

      • 데이터 프레젠테이션 :
        마케팅 채널 및 고객 유형별 판매 데이터 분석

      • 효율적인 데이터 분석 워크플로우 구축 :
        R을 사용해 판매 데이터 분석 및 보고서 작성

      • 통신사 고객 이탈 예측 :
        Excel을 사용해 이탈 가능성이 높은 고객 프로파일링

      • Crunchbase의 스타트업 펀딩 분석 :
        스타트업 펀딩 데이터를 분석해 투자 트렌드 파악

    • 해외 기업들의 빅데이터 활용 사례 요약 : 참고 링크

      • 넷플릭스 :
        유저 데이터(평점, 지역, 관심 콘텐츠 등)를 수집 및 분석하여 개인화된 추천 시스템 구축
        3천3백만 개의 맞춤형 넷플릭스 버전 존재
        DVD 추천 알고리즘을 통해 2006년부터 데이터 분석 시작

      • 패션 산업 :
        Zara: 빅데이터로 수요 예측 및 재고 관리, 수익 극대화
        ASOS: 실시간 머신러닝과 이미지 인식 기술을 활용해 개인화된 제품 추천


  • 최종 프로젝트 기획안 제출

프로젝트 주제

H&M 데이터셋을 기반으로 한 분석 및 대시보드

주제 선정 이유

실제 기업에서 제공한 데이터(고객, 거래, 제품 등)를 활용하여
실무와 유사한 분석을 수행할 수 있을 것으로 기대

프로젝트 명

H&M 고객 행동 분석을 통한 맞춤형 추천 시스템 구축

프로젝트 목표

H&M 거래 데이터를 분석하여 고객 행동을 이해하고,
이를 기반으로 맞춤형 추천 시스템을 구축하여 고객 쇼핑 경험을 개선

프로젝트 핵심 내용
: 데이터 분석 프로젝트의 방법과 흐름을 체계적으로 설명

  1. 제품 기반 분석
  • 목표 : 인기 제품 및 카테고리별 선호도 파악
  • 방법 : 제품 데이터의 특성을 분석하여 가장 많이 팔린 제품과 인기가 많은 카테고리를 도출
  1. 고객 세분화 분석
  • 목표 : 고객의 구매 패턴 및 재구매율 분석
  • 방법 : 고객과 거래 데이터를 활용하여 구매 날짜, 제품명, 구매 수량 등을 분석하여 구매 패턴과 재구매율 파악
  1. 맞춤형 추천 시스템 구축
  • 목표 : 고객 행동 분석을 바탕으로 한 개인화된 추천 시스템 개발
  • 방법 : 고객의 과거 구매 데이터를 분석하여 개인화된 추천 알고리즘 설계 및 구현

  • 데이터 전처리 후 최종 CSV 파일 추출

  1. customers 테이블 기본 전처리
  • postal_code 컬럼 제거

  • FN, Active 컬럼 NaN 값 처리

  • age 컬럼 Null 값 처리 (null 값 15861 개)

    • 이상치 영향을 덜 받기 위해 median() 중앙값 대체

  • club_member_status 의 NaN 값 처리

    • 각 값들의 의미가 활성화 유저, 비활성화 유저, 탈퇴 유저 등으로 보이고,
      결측치가 의미하는 바가 비회원 또는 회원 정보가 없는 것으로 추정하여
      결측치를 NONE 으로 대체

  • fashion_news_frequency 의 NaN 값 처리

    • 결측치의 갯수가 상대적으로 적고 패션 뉴스를 구독하지 않는 NONE 값이 대부분이기 때문에,
      결측치를 NONE 으로 대체

  • FN, Active, age 컬럼들의 float 데이터 타입을 int 로 변경 (가독성 높이기)


  1. transactions 테이블 : 거래 날짜 데이터 타입 변환 (object > datetime)


  1. articles 테이블 :


  1. 테이블 조인

  • 문제점 식별 (데이터 용량)

  • ML 분석에 활용도가 떨어지는 14개 컬럼 제거 (중복 표현, 범주형 데이터 등)

  • 컬럼 제거 전 (약 7.7GB) → 컬럼 제거 후 (약 4.4GB)


  1. 분석에 활용할 최종 데이터 (31788324 rows * 20 columns)

  • 고객 정보 (고객 id, 나이, 회원 활성화 상태 등)

  • 거래 정보 (고객 id, 거래일, 판매 가격(스케일링된 값), 판매 제품 등)

  • 제품 정보 (제품 id, 제품 분류, 제품 정보 등)


#OUTRO

오늘의 한 줄.

고생했다 !

profile
커피 좋아하는 데이터 꿈나무

0개의 댓글