[TIL] 상품 데이터 EDA 및 전처리 준비 (2024-07-24)

SHU·2024년 7월 24일
0

H&M 데이터 분석

목록 보기
3/8

3개의 테이블 중 가장 컬럼이 많고 계층구조가 복잡한 articles 테이블을 뜯어보고 싶었기에 자원해서 해당 테이블의 전처리와 EDA를 맡았다. H&M group이 직접 제공하는 데이터인 만큼 실제 패션 커머스에서 상품분류를 어떻게 하는지 확인하고 이해해 볼 좋은 기회라고 생각했다.

task

구조 파악

  • 상품분류 계층 파악
  • 색상분류 파악

전처리

  • 불필요 컬럼 삭제
  • 이상치 및 휴먼에러로 파악되는 값 처리

진행 내용

쉬는 시간에 데이터리안 유튜브를 보다 인상깊은 말이 있었다.
호미로 할 수 있는 일은 호미로 해라라는 말.
데이터의 사이즈가 그리 큰 편은 아니었기에, 초반 EDA 단계에서 꼭 python이나 SQL을 쓰기보다는 tableau에서 바로 로드하여 시각적으로 탐색하며 EDA를 진행했다.

상품 카테고리 / 상품타입으로 상품분류체계 분리


articles.csv에는 이미지의 왼쪽 열와 같이 총 25개의 컬럼이 존재
각 article(상품 상세)을 구분하는 id인 article_id와 상품 설명인 detail_desc를 제외한 23개 컬럼이 모두 상품 분류와 관련된 컬럼이기에, 분류의 상하위 계층구조를 정의할 필요가 있음

최종 2개의 상품분류체계 정의

  • 카테고리 : 여성/남성/스포츠 등의 분류
    - 카테고리 계층구조
    index group name - index name - section name
  • 상품타입 : 상하의 등의 분류
    - 상품타입 계층구조
    product group name(가제) - product type name

: 착용 대상 및 상황에 따른 구분인 여성/남성/스포츠 등에 대한 컬럼은 카테고리 계층으로 묶음.
상의/하의/원피스 등 의류의 형태에 대한 컬럼은 상품타입 계층으로 묶음

tableau를 통해 아래 그림과 같이 차트를 만들어보며 컬럼의 상-하위 관계를 파악

+ 색상 분류체계

동일 색상임에도 명채도에 따라 여러 색상으로 갈리는 50여가지 종류의 color group name은 사용하지 않고, 20여가지 명확한 색상명을 가진 percived colour master name과 명도 정보만을 담은 percived colour value name을 교차하여 사용하기로 함
: 홈페이지에서 제공하는 색상과 소비자가 상품 구매 시 기준을 잡는 색상이 밝은 초록, 탁한 초록이 아닌 '초록'이라는 점에서 명확한 색상명을 사용.
추가로, 명도 정보는 통상적으로 고객에게 제공되지 않으나 상품 추천 및 고객 특성 확인에서 유의하리라 생각하여 사용하기로 함.

  • 색상/명도에 따른 상품 수 분포

삭제할 컬럼 정의

col nmreason
product_group_namegarment_group 이랑 많이 겹침
department_nameproduct 구분과 유사하여 카테고리에 넣지 않고 섹션까지의 카테고리와 상품 타입 분류체계를 함께 활용하는 것이 좋다고 판단
color_group_name명도 구분 없이 색상만 있는 percived_color_master_name 사용할 것
no, id로 끝나는 컬럼name을 사용하고 코드는 drop

: no, id 컬럼의 경우 개발을 한다면 유지하는 것이 좋겠지만, tableau를 활용한 대시보드 제작 외 애플리케이션 등의 개발은 예정되어 있지 않아 필요도가 떨어짐. 또한 데이터 사이즈 축소의 필요성도 있어 drop

profile
슈의 코드뜨개질

0개의 댓글