멋쟁이 사자처럼 AI 스쿨 TIL-50

김영민·2022년 12월 19일

AI스쿨 RNN 데이터분석가 딥러닝 멋쟁이사자처럼 시계열

online retail data 실습 순서
EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation)
=> 유사도를 통한 추천시스템

QnA

시계열 데이터로 예측해 볼 수 있는게 무엇이 있을까요?
=> 주가, 부동산 가격, 판매량, 재고량, 매출액, 신선식품 업체의 유통량, 농수산물가격, 동시접속자수, 서비스이용 고객수, 식물의 성장예측, 트래픽량
bike-sharing-demand 를 실습했을 때 날짜, 시간 데이터가 있었습니다. 그런데 그 데이터로 시계열 방법을 사용하기 보다는 회귀 방법을 사용했습니다. 시계열을 사용해서 예측해 볼 수도 있기는 합니다. 왜 시계열 방법을 사용하지 않고 회귀 방법을 사용했었을까요?
=> 시간대별로 binning 이 되어있기는 한데, 지금 주가 데이터도 일자별로 binning 이 되어있는 상태입니다.
bike-sharing-demand 데이터를 나누는 기준이 1~19일까지가 train, 나머지가 test 로 되어있었습니다.
여러 변수를 고려해서 수치데이터를 예측할 때 회귀 모델을 사용하기도 합니다.
중복 데이터를 제거해 주려고 합니다. 어떻게 제거하면 될까요?
=> drop_duplicates
Description 항목을 groupby 에 사용하지 않은 이유?
=> Description 항목을 groupby 에 사용하면 StockCode 가 같은데도 다른 Description 이라면 함께 집계되지 않습니다. StockCode 기준으로 집계하기 위해 집계 후에 Description 을 구해주었습니다.

딥러닝

기존에는 데이터를 나눌 때 섞어서 나누었습니다. 그런데 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 됩니다.
자연어 텍스트를 시퀀스 인코딩 했던 것처럼 언어도 맥락이 있기 때문에 섞으면 원래 의미를 잃어버릴 수 있습니다. 시계열 데이터에서도 순서가 중요합니다.
예를 들어 지난 일년 간의 데이터를 통해 앞으로 일주일 간의 데이터를 예측한다고 했을 때도 윈도우를 밀어서 앞으로 예측할 일주일 데이터도 일주일치를 한번에 예측하게 하지 않고 그 전날까지의 데이터를 가지고 와서 다음날을 예측하게 합니다.

오가닉 트래픽

오가닉 트래픽(Organic Traffic)이란 광고나 소셜미디어, 리퍼럴 사이트와 같은 채널을 통해 사이트로 유도되는 트래픽을 제외하고 검색 엔진을 통해 곧바로 유입되거나 동일한 도메인 안에서 유입되는 트래픽을 말한다.
‘고객에게 자연스럽게 도달한다'는 의미

매트릭

온라인 강의에서 처음부터 평생 수강권을 주지 않고 30일 수강권을 주고 절반 이상 수강하면 평생 수강할 수 있게 해주고 그 다음에 다른 강의를 수강할 수 있는 쿠폰을 준다?!
회사나 제품마다 측정하는 메트릭이 다 다릅니다. 절반 이상 수강했다면 다른 강의를 수강할 확률이 높아진다? 이런 것들을 데이터 분석을 통해 얻을 수 있겠죠.
=> 데이터 분석을 통해 해당 제품에서 어떤 지표를 볼 것인지를 정하게 되죠. 특정 제품에서 가장 중요시 여기는 지표를 북극성지표라고 부르기도 합니다.

김영민

배운걸 다 흡수하는 제로민

이전 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-49

다음 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-50

QnA

딥러닝

오가닉 트래픽

매트릭

멋쟁이 사자처럼 AI 스쿨 TIL-49

멋쟁이 사자처럼 AI 스쿨 TIL-51

0개의 댓글