online retail data 실습 순서
EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation)
=> 유사도를 통한 추천시스템
시계열 데이터로 예측해 볼 수 있는게 무엇이 있을까요?
=> 주가, 부동산 가격, 판매량, 재고량, 매출액, 신선식품 업체의 유통량, 농수산물가격, 동시접속자수, 서비스이용 고객수, 식물의 성장예측, 트래픽량
bike-sharing-demand 를 실습했을 때 날짜, 시간 데이터가 있었습니다. 그런데 그 데이터로 시계열 방법을 사용하기 보다는 회귀 방법을 사용했습니다. 시계열을 사용해서 예측해 볼 수도 있기는 합니다. 왜 시계열 방법을 사용하지 않고 회귀 방법을 사용했었을까요?
=> 시간대별로 binning 이 되어있기는 한데, 지금 주가 데이터도 일자별로 binning 이 되어있는 상태입니다.
bike-sharing-demand 데이터를 나누는 기준이 1~19일까지가 train, 나머지가 test 로 되어있었습니다.
여러 변수를 고려해서 수치데이터를 예측할 때 회귀 모델을 사용하기도 합니다.
중복 데이터를 제거해 주려고 합니다. 어떻게 제거하면 될까요?
=> drop_duplicates
Description 항목을 groupby 에 사용하지 않은 이유?
=> Description 항목을 groupby 에 사용하면 StockCode 가 같은데도 다른 Description 이라면 함께 집계되지 않습니다. StockCode 기준으로 집계하기 위해 집계 후에 Description 을 구해주었습니다.
온라인 강의에서 처음부터 평생 수강권을 주지 않고 30일 수강권을 주고 절반 이상 수강하면 평생 수강할 수 있게 해주고 그 다음에 다른 강의를 수강할 수 있는 쿠폰을 준다?!
회사나 제품마다 측정하는 메트릭이 다 다릅니다. 절반 이상 수강했다면 다른 강의를 수강할 확률이 높아진다? 이런 것들을 데이터 분석을 통해 얻을 수 있겠죠.
=> 데이터 분석을 통해 해당 제품에서 어떤 지표를 볼 것인지를 정하게 되죠. 특정 제품에서 가장 중요시 여기는 지표를 북극성지표라고 부르기도 합니다.