이 글은 코드스테이츠 PM부트캠프 학습 과제로 작성했습니다.
배우는 과정에서 작성하다 보니 잘못된 내용이나 부족한 점이 있을 수 있습니다.
부족한 점은 피드백해 주시면 감사하겠습니다.
과제를 위해 Kaggle의 슈퍼마켓 매출 데이터를 활용하였습니다.
출처: https://www.kaggle.com/datasets/surajjha101/stores-area-and-sales-data
Context
A supermarket is a self-service shop offering a wide variety of food, beverages and household products, organized into sections. This kind of store is larger and has a wider selection than earlier grocery stores, but is smaller and more limited in the range of merchandise than a hypermarket or big-box market. In everyday U.S. usage, however, "grocery store" is synonymous with supermarket, and is not used to refer to other types of stores that sell groceries.
해당 자료에서 제공하는 Table의 Column은 5가지 입니다.
1. 매장 면적
2. 평균 방문자(월 방문자/31 or 30)
3. 진열 상품 종류
4. 월 매출
해당 자료를 바탕으로 2가지의 가설을 세우고 확인해 보았습니다.
데이터 시각화는 Tableau를 사용했습니다.
커머스 사업은 상품의 종류와 매출이 정비례할 것이라는 생각으로 데이터를 확인해 보았습니다.
예상과 다르게 진열 상품 종류와 매출의 상관관계가 명확하게 들어나지 않았습니다.
만약 지역이나 제품 평균 가격과 같은 변수를 적용할 수 있었다면 하는 아쉬움이 있습니다.
현재 데이터로는 '상품의 종류가 매출에 큰 영향을 주지 못한다.'는 것으로 보입니다.
바로 데이터를 확인해 보았습니다.
이번에도 매출과의 연관성을 확인하지 못했습니다. 여기서 느꼈습니다.
아.. 데이터가 부족하거나 부정확하면 원하는 가설을 검증하기 어렵구나..
사용한 데이터는 한 분야에 특화된 식료품점과 대형마트를 제외한 슈퍼마켓을 대상으로 한 자료이기 때문에
슈퍼마켓의 특성을 고려하면 '상품의 종류'와 '매장의 규모'보다 상권이나 상품 가격 등이 더 중요한 요인으로 작용했을 수 있다고 생각합니다. 하지만 보다 다양한 데이터를 확보하고 대입해 보아야 정확한 인사이트를 얻을 수 있겠구나 반성하게 되었습니다.
시간이 되면 보다 많은 데이트를 확보하고 다시 한번 가설을 검증해 보는 시간을 기자고 싶네요😂