[코드스테이츠 PMB 13기] 데이터 시각화

Swan·2022년 8월 5일
0
이 글은 코드스테이츠 PM부트캠프 학습 과제로 작성했습니다.
배우는 과정에서 작성하다 보니 잘못된 내용이나 부족한 점이 있을 수 있습니다.
부족한 점은 피드백해 주시면 감사하겠습니다.

오늘은 오픈 데이터를 활용해 간단한 데이터 시각화를 해보겠습니다.

과제를 위해 Kaggle의 슈퍼마켓 매출 데이터를 활용하였습니다.
출처: https://www.kaggle.com/datasets/surajjha101/stores-area-and-sales-data

Context
A supermarket is a self-service shop offering a wide variety of food, beverages and household products, organized into sections. This kind of store is larger and has a wider selection than earlier grocery stores, but is smaller and more limited in the range of merchandise than a hypermarket or big-box market. In everyday U.S. usage, however, "grocery store" is synonymous with supermarket, and is not used to refer to other types of stores that sell groceries.

해당 자료에서 제공하는 Table의 Column은 5가지 입니다.
1. 매장 면적
2. 평균 방문자(월 방문자/31 or 30)
3. 진열 상품 종류
4. 월 매출

해당 자료를 바탕으로 2가지의 가설을 세우고 확인해 보았습니다.
데이터 시각화는 Tableau를 사용했습니다.

진열 상품이 다양하면 매출이 높을 거야!

커머스 사업은 상품의 종류와 매출이 정비례할 것이라는 생각으로 데이터를 확인해 보았습니다.

False

예상과 다르게 진열 상품 종류와 매출의 상관관계가 명확하게 들어나지 않았습니다.
만약 지역이나 제품 평균 가격과 같은 변수를 적용할 수 있었다면 하는 아쉬움이 있습니다.
현재 데이터로는 '상품의 종류가 매출에 큰 영향을 주지 못한다.'는 것으로 보입니다.

그렇다면 매장 크기와 매출은 연관이 있을까?

바로 데이터를 확인해 보았습니다.

False

이번에도 매출과의 연관성을 확인하지 못했습니다. 여기서 느꼈습니다.
아.. 데이터가 부족하거나 부정확하면 원하는 가설을 검증하기 어렵구나..

왜 가설이 틀렸을까?

사용한 데이터는 한 분야에 특화된 식료품점과 대형마트를 제외한 슈퍼마켓을 대상으로 한 자료이기 때문에
슈퍼마켓의 특성을 고려하면 '상품의 종류'와 '매장의 규모'보다 상권이나 상품 가격 등이 더 중요한 요인으로 작용했을 수 있다고 생각합니다. 하지만 보다 다양한 데이터를 확보하고 대입해 보아야 정확한 인사이트를 얻을 수 있겠구나 반성하게 되었습니다.

시간이 되면 보다 많은 데이트를 확보하고 다시 한번 가설을 검증해 보는 시간을 기자고 싶네요😂

profile
💻

0개의 댓글