[공모전 수상작 리뷰]Reactjs+Nodejs+python+scikit-learn{ PCA(주성분 분석), VAR(다변량시계열분석)}으로 공연 예매 추이 시나리오 별 예측하는 서비스 만들어보기 - 개요
공연예술백신 프로젝트 개요
기본 분석 개요
분석 주제 특성상, KOPIS데이터 이외에도 다양한 주제의 데이터가 필요했다.
'코로나'의 영향력이 어떤 양상으로 끼쳤는지 판단하기 위해 '펜데믹 이전(2019년)', '펜데믹 초기(2020년)', '펜데믹 진행중기(2021년)'로 나누어 분석하였다.
'코로나 수혜분야'라고 판단 가능한 근거를 관련기사, 통계자료를 통해 찾았다.
직접적인 수혜분야라고는 할 수 없지만, 간접적으로 수혜를 본 분야(주식, 가상화폐)의 데이터도 포함했다.
예매 건수 다변량시계열 예측모델 개요
예매 건수가 타 지표 대비 공연관람 인원수와 관련도가 가장 높으리라 판단되어, 타겟 지표로 정함
채택된 모형은VAR(벡터자기회귀모형)이며, 이를 이용하여 다변량시계열분석 및 예측을 진행함
사용된 데이터는 2019/01/01 ~ 2021/08/31 사이, 일별 시계열 데이터이며, 공연예매건수, ott앱사용자수, ott앱총사용시간, 배달앱사용자수, 배달앱총사용시간, 중고거래앱사용자수, 중고거래앱사용시간, 화상회의앱사용자수, 화상회의앱사용시간, 코로나확진자수, 지하철이용자수, 가상화폐거래량, 가상화폐변동추이, KOSPI지수, KOSPI거래량, KOSDAQ지수, KOSDAQ거래량, 평균기온, 일조량, 일사량, 바람세기, 습도 데이터임
시계열 데이터의 정상성 검증에는, ADF test를 이용함
시계열 데이터의 정상성이 검증되지 않았다면, 차분을 시행한 뒤, 재평가 함
선택된 최적 모델의 경우, 표준화 + PCA(주성분 2개)를 거친 모델을 채택함
예측값과 실제값의 검증은 공연예매건수 피처의 r2스코어와 MSE, RMSE를 이용함
예측 모델을 이용하여 만든 예매 건수 예측 서비스 웹
예측 서비스 인트로

예측 기간 선택 문항

예측 결과 페이지

예측 결과 시나리오별 상세 페이지

예측 결과 시나리오별 상세 페이지 비즈니스 인사이트

데이터 분석 및 웹 구현 절차
데이터 탐색 및 전처리
데이터 변수 별 상관분석
데이터 모델링 및 교차검증
다변량 시계열 분석 및 예측
시나리오 별 최종 가중치 반영
백엔드 개발
프론트엔드 개발