돌아가는 것까지 확인한 크롤링은 포폴 활용 적합성 이슈로 인해 코드를 버리고...문제의식은 유지한 채 케글에서 패션 커머스 데이터를 찾아 분석하기로
[TIL] 최종 프로젝트 기획(2024-07-22)에서 이어짐
가장 컬럼이 많고 계층구조가 복잡한 articles 테이블을 뜯어보고 싶었기에 자원해서 해당 테이블의 전처리와 EDA를 맡았다. H&M group이 직접 제공하는 데이터인 만큼 실제 패션 커머스에서 상품분류를 어떻게 하는지 확인하고 이해해 볼 좋은 기회라고 생각했다.
인덱스 인덱싱을 활용한 상품 타입 재분류
온/오프라인 거래 비교, 온라인 쇼핑몰 구매 특성 분석이라는 분석 목적을 위해서는 가격을 사용할 필요가 있다고 판단, 전처리 시행
Recency(얼마나 최근에 구매했는가), Frequency(얼마나 자주 구매했는가), Monetary(얼마나 소비했는가)를 바탕으로 고객을 여러 segment로 분류하는 세그먼테이션 기법E
유사성을 가지는 집단들은 묶어 너무 많은 집단 수를 줄이고, 적절한 이름을 붙여주기로 했다
중간발표와 sales channel id 컬럼에 대한 논의