세계 최대의 전자상거래 회사 중 하나인 Otto Group에서 주최하는 Otto Group Product Classification Challenge 입니다.
Otto Group은 익명화(anonymization)된 상품 정보에 대한 데이터를 제공하는데, 경진대회 참석자는 이 데이터를 활용하여 주어진 상품 카테고리(target)를 예측해야 합니다. 상품 카테고리는 Class_1부터 Class_9까지 총 9개가 있습니다. 주어진 데이터를 머신러닝을 활용하여 예측해보도록 하겠습니다.
모든 환경은 주피터 노트북 환경 하에서 이루어졌습니다.
데이터 로드
먼저 학습할 데이터의 특성을 알아보기 위해 데이터 로드를 함
학습
학습을 진행하기 위해 데이터에서 라벨을 분리하여 특징데이터와 라벨을 각각 X, y로 지정
Light GBM
hyper parameter tuning
평가
예측