
안녕하세요 !
오늘은 또 태블로 프로젝트 시작한 첫 날입니다 !
저희가 이번에 선택한 프로젝트는
아마존 데이터 속으로 떠나는 인사이트 모험 입니다 !!!
✅ - 저희는 아마존의 7일 인턴 입니다.
인턴 기간 동안 아마존에 수익을 올려줄 수 있는 인사이트를 발굴하기 위한 태블로 프로젝트를 진행해야 합니다.
어떤 대시보드와 인사이트를 통해 수익을 창출할 수 있을까요?
✅ - 매출과 판매 수량 변화를 분석하여
상품별 매출, 판매 수량, 할인 금액 등을 분석하여 상품 포트폴리오를 최적화
✅ 데이터 탐색 및 전처리
|
원본 데이터 : 65280 rows × 20 columns
|
item class(상품 분류 코드), item number(상품 고유번호) 컬럼 제거
DateKey, Invoice Date, Promised Delivery Date 날짜 형식 변환
Discount Amount(각 거래 할인 적용 금액) 결측치 2개 제거
List Price(상품 정가) 0 값 제거
Promised Delivery Date(배송 예정 날짜) 2008, 2009, 2010년도 값 제거
U/M(묶음 상품 갯수) 오브젝트 '-' 제거
sales price(할인 후 실제 판매가) 소수점 두 번째 자리까지 반올림
Sales Rep(판매 담당자 코드) 컬럼 삭제 유보
전처리 후 데이터 : 64,980 rows x 18 columns
✅ 공식
|
Sales Amount(할인 적용된 최종 거래 금액)
= Sales Price(할인 적용된 최종 판매 금액) * Sales Quantity(각 거래에 판매된 수량)
Sales Amount Based on List Price(정가 기준 거래 금액)
= List Price(상품 정가) * Sales Quantity(각 거래에 판매된 수량)
Discount Amount(각 거래에 할인 금액)
= Sales Amount Based on List Price(정가 기준 거래 금액) - Sales Amount(할인 적용된 최종 거래 금액)
✅ 상관관계 분석
|
# 제공된 데이터프레임에서 필요한 열 선택
selected_columns = ['Discount Amount', 'List Price', 'Sales Amount', 'Sales Amount Based on List Price', 'Sales Cost Amount', 'Sales Margin Amount', 'Sales Price', 'Sales Quantity']
# 선택된 열로 새로운 데이터프레임 생성
df_selected = df[selected_columns]
# 상관 행렬 계산
corr_matrix = df_selected.corr()
# 히트맵 그리기
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Matrix Heatmap')
plt.show()
\

이러던 와중에 큰 오류를 발견
2017 ~ 2019 데이터인 줄 알았으나
2018년부터 거즘 일년 간의 데이터가 날라가서
과감하게 2019년 데이터만 가지고 리셋 !!!!
최종으로 사용할 데이터셋 27951 rows × 18 columns
오늘도 피곤한 하루네요
내일까지만 참아보고
우리 또 열심히 해봅시당 !! 오늘도 수고 많으셨어요 🍀🍀🍃