3개의 테이블 중 가장 컬럼이 많고 계층구조가 복잡한 articles 테이블을 뜯어보고 싶었기에 자원해서 해당 테이블의 전처리와 EDA를 맡았다. H&M group이 직접 제공하는 데이터인 만큼 실제 패션 커머스에서 상품분류를 어떻게 하는지 확인하고 이해해 볼 좋은 기회라고 생각했다.
쉬는 시간에 데이터리안 유튜브를 보다 인상깊은 말이 있었다.
호미로 할 수 있는 일은 호미로 해라라는 말.
데이터의 사이즈가 그리 큰 편은 아니었기에, 초반 EDA 단계에서 꼭 python이나 SQL을 쓰기보다는 tableau에서 바로 로드하여 시각적으로 탐색하며 EDA를 진행했다.
articles.csv에는 이미지의 왼쪽 열와 같이 총 25개의 컬럼이 존재
각 article(상품 상세)을 구분하는 id인 article_id와 상품 설명인 detail_desc를 제외한 23개 컬럼이 모두 상품 분류와 관련된 컬럼이기에, 분류의 상하위 계층구조를 정의할 필요가 있음
index group name - index name - section name
product group name(가제) - product type name
: 착용 대상 및 상황에 따른 구분인 여성/남성/스포츠 등에 대한 컬럼은 카테고리 계층으로 묶음.
상의/하의/원피스 등 의류의 형태에 대한 컬럼은 상품타입 계층으로 묶음
tableau를 통해 아래 그림과 같이 차트를 만들어보며 컬럼의 상-하위 관계를 파악
동일 색상임에도 명채도에 따라 여러 색상으로 갈리는 50여가지 종류의 color group name은 사용하지 않고, 20여가지 명확한 색상명을 가진 percived colour master name과 명도 정보만을 담은 percived colour value name을 교차하여 사용하기로 함
: 홈페이지에서 제공하는 색상과 소비자가 상품 구매 시 기준을 잡는 색상이 밝은 초록, 탁한 초록이 아닌 '초록'이라는 점에서 명확한 색상명을 사용.
추가로, 명도 정보는 통상적으로 고객에게 제공되지 않으나 상품 추천 및 고객 특성 확인에서 유의하리라 생각하여 사용하기로 함.
col nm | reason |
---|---|
product_group_name | garment_group 이랑 많이 겹침 |
department_name | product 구분과 유사하여 카테고리에 넣지 않고 섹션까지의 카테고리와 상품 타입 분류체계를 함께 활용하는 것이 좋다고 판단 |
color_group_name | 명도 구분 없이 색상만 있는 percived_color_master_name 사용할 것 |
no, id로 끝나는 컬럼 | name을 사용하고 코드는 drop |
: no, id 컬럼의 경우 개발을 한다면 유지하는 것이 좋겠지만, tableau를 활용한 대시보드 제작 외 애플리케이션 등의 개발은 예정되어 있지 않아 필요도가 떨어짐. 또한 데이터 사이즈 축소의 필요성도 있어 drop