[DB] kaggle 데이터 분석 해보기(1)

mspark·2023년 3월 19일
0

DB

목록 보기
1/3

0. Kaggle이란?

Kaggle은 데이터 과학자들이 데이터를 분석하고 모델링하는 데 필요한 모든 리소스와 도구를 제공하는 포괄적인 데이터 분석 플랫폼입니다.

데이터 과학자들과 엔지니어 뿐 아니라 누구나 데이터를 분석하고 모델링하는 데 사용하는 온라인 커뮤니티 및 플랫폼입니다. Kaggle에는 데이터 과학 대회와 데이터 세트 공유 및 노트북 공유 기능 등이 있어 데이터 분석에 필요한 다양한 리소스를 제공합니다. 사용자들은 공개적으로 사용 가능한 데이터 세트를 업로드하고 공유할 수 있으며, 이를 활용하여 데이터 분석, 머신러닝 모델을 개발할 수 있습니다. 또한 데이터 질문과 답변 서비스를 제공합니다. 데이터 분석에 관한 질문을 하면 전 세계적으로 유명한 데이터 과학자들과 커뮤니티 구성원들이 답변을 제공해줍니다.

>>> Kaggle 바로가기


1. 목표

E-commerce 시장의 고객 구매 데이터를 활용하여 E-commerce 비즈니스에서 중요한 시장 수요 예측과 고객 관리 등에 도움이 되는 유의미한 데이터를 분석합니다.


2. 데이터 선정 이유

아마존 디렉터 로니 코하비는 “Data is King at Amazon.”라고 말한 적 있습니다. 규모가 커지고 있는 E- commerce 시장에서 빅데이터와 인공지능 기술의 기반은 치열한 시장에서의 필수적인 생존 전략입니다. 전자 상거래 업체에서는 상품의 입고, 포장, 배송 등을 판매자 대신 주문 제품을 물류창고를 거쳐 고객에게 배송까지의 전 과정을 일괄적으로 처리하는 풀필먼트(Fulfillment) 시스템을 구축하고 있습니다. 이에 최근 국내에서는 쿠팡의 로켓배송, 마켓컬리의 샛별배송 등 소비자에게 신선제품을 포함한 다양한 상품을 최대한 빠르게 배송해주는 서비스의 경쟁이 과열되고 있는데요. 이 과정에서 전략적으로 수요를 예측하고 재고를 관리하며 동일한 제품 및 서비스에 대한 가격을 시장 상황에 따라 탄력적으로 변화시키는 Dynamic Pricing 전략 사용과 최대한 빠른 배송을 제공하기 위해 서는 빅데이터와 알고리즘 기술이 아주 중요합니다.

이에 따라 전자 상거래의 주문 데이터를 통하여 유의미한 데이터를 정의해보는 실습을 해보기 위해 Kaggle의 ‘Brazilian E-Commerce Public Dataset by Olist’를 선정하였습니다. Olist는 브라질의 소규모 전 자상거래를 위한 온라인 판매 플랫폼입니다. 해당 Dataset은 2016년부터 2018년까지 약 10만개의 주문 정보가 누적된 관계형 Data로, 정보량이 많고, Table 수가 적절하며, 지역별, 고객 후기 Data까지 있어 다양하고 유의미한 Data 분석이 가능하다 판단하여 선정하였습니다.

>>> [Kaggle] ‘Brazilian E-Commerce Public Dataset by Olist’


3. 데이터 설명

Figure 1 Kaggle Dataset에서 제공한 DATA SCHEMA.

해당 데이터는 9 개의 테이블로 나누어져 있습니다. 데이터에 대한 간략한 설명은 다음과 같습니다.

(1) customers_dataset : 고객 데이터 (고객 고유 ID, 배송지 ...)
(2) geolocation_dataset : 브라질 도시 데이터 (위,경도 포함)
(3) order_items_dataset : 주문한 상품 데이터 (판매자, 가격, 배송비 ...)
(4) order_payments_dataset : 결제 데이터 (결제 방식, 할부, 가격 ...)
(5) order_reviews_dataset : 리뷰 데이터 (코멘트, 별점, 리뷰 게시글 고유 아이디 ...)
(6) orders_dataset : 주문 데이터 (주문, 판매자 ID, 배송 출발, 도착 날짜 ...)
(7) products_dataset : 상품 데이터 (상품 ID, 카테고리, 상품 크기 정보 ...)
(8) sellers_dataset : 판매자 데이터 (판매자 고유 ID, 판매자 위치 ...)
(9) product_category_name_translation : 카테고리의 포르투갈어, 영어 이름

이에 원활한 데이터 조작어 작성을 위해 직접 데이터베이스 구조와 제약 조건에 따라 컬럼명이 명시된 데이터 스키마를 작성해보았습니다.

Figure 2 본인 작성 DATA SCHEMA (dbdiagram.io)


👉 이번 분석 프로젝트에서는 크게 판매 관련 DATA와 고객 만족도 DATA로 나누어 전자 상거래 구매 정보의 유의미한 데이터를 산출해보겠습니다.

0개의 댓글