[제로베이스] CH4. EDA - Prophet 활용 웹 유입량 예측 프로젝트

정해성·2023년 7월 12일
0

제로베이스

목록 보기
36/36
post-thumbnail

🚩 프로젝트 개요 및 목표

제로베이스에서 제공한 웹 주소와 웹 유저 유입량 데이터를 통해 미래의 유저 유입량을 예측할 것이다.

웹 주소 : https://pinkwink.kr/

🔎 원본 데이터 분석

  • 웹 유저 유입량의 데이터를 불러오자.

  • Nan 데이터가 있다. Nan데이터는 빼자.

🔎 trend 예측 1. polyfit 활용

  • 먼저 polyfit함수를 사용해서 예측해보자.

polyfit은 다항곡선 회귀분석을 위해 사용한다. 회귀분석이란 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법으로 polyfit은 데이터를 회귀분석하여 함수을 계산하고 함수의 기울기, 절편을 반환해준다. 이 반환값을 변수로 담아서 하나의 함수로 만들어 사용하면 된다.

  • polyfit의 x, y 데이터를 넣어 기울기와 계수 반환.

  • polyfit으로 예측한 결과

  • polyfit으로 예측한 결과와 오차 분석

  • ployfit의 차수를 높일 수록 오차가 줄어듬을 볼 수 있다. 나중에 데이터 분석가로서 적절한 차수를 사용하는 것이 중요할 것이다.

🔎 trend 예측 2. Prophet 활용

  • 이제 prophet으로 trend를 예측해보자. prophet은 반드시 ds와 y로 시계열 데이터가 필요하다. 시계열 데이터로 데이터프레임을 만들자.

  • 예측하기

🔎 예측 결과 분석

  • Prophet에서 plot_components() 함수를 사용하면 trend, 계절성을 그래프로 보여준다.

trend 분석

  • trend가 1차식으로 나왔다. 위에서 polyfit으로 구했던 것을 보면 15차식이 오차가 작아 더 정확함을 알수 있다. 이처럼 경향을 구해놓고 데이터 분석가로서 1차식을 경향으로 채택할지 15차식을 경향으로 채택할 지는 프로젝트마다 분석가의 몫이다.

계절성 분석

  • 유저 방문객이 월요일 화요일날 가장 많다.

  • 4월과 6월에 많고 10, 12월에 방문객이 많은 것으로 나타난다.
    - 대학생 시험기간??!!

  • 일간 계절성은 데이터가 하루에 하나의 데이터이기 때문에 크게 의미가 없다.

profile
코린이 공부중

0개의 댓글