추진 배경
최근 언택트 시대를 맞이하여 유튜브 붐이 일어났다. 많은 분야에 사람들이 각자의 위치에서 시청자의 호기심을 자극하는 영상들을 찍고 수익을 버는데 조회수가 높게 오를수록 대형유튜버라고 칭한다. 그래서 어떠한 변수가 조회수에 영향을 미쳐 유튜버로서 성공할 수 있는지 궁금하였다.
데이터 소개
데이터는 Kaggle 에 있는 14~15년도 Hot Trend에 올라온 영상들의 댓글로 프로젝트를 하였다. column 은 날짜와 조회수, 좋아요, 싫어요, 코멘트, 태그 수 등이 있었고 데이터를 전처리 하였다.
데이터 전처리
-정규화 과정
-상관관계
정규화 과정을 거친 다음 Pair plot을 그려보았고 comment_count와 likes변수가 상관관계가 높아 다중공선성이 일어나지만 중요한 변수라고 생각했기에 넣어서 분석을 시도해보았다.
결국 프로젝트에는 좋아요, 싫어요, 댓글수, 태그수, 개시 기간 총 5개의 변수로 조회수를 설정해 모델을 설계했다.