카테고리별 유튜브의 파급력 (조회 수, 좋아요 수, 구독자 수) 데이터 크롤링 및 시각화
음악
은 k-pop 가수
나 pop 가수
들이 조회 수의 주류를 이루었고 이를 유튜버라고 보기 어려울 것 같다는 생각에 playlist
와 곡 해석
위주의 유튜버들을 추출했는데 이를 선별하는 과정이 너무 주관적으로 바뀔 것 같아 동물
로 카테고리를 수정하였다.그래프
와 어떤 wordCloud
를 보여 줄지 정하기 위해 데이터들을 하루 동안 작업해 보고 다시 모여 회의를 할 때는 역할 분담 후 바로 개발에 들어가기로 하였다. 나는 데이터를 분석하기에 앞서 내가 생각한 콘텐츠를 다음과 같이 정리해 보았다. 🔎 내가 생각한 데이터 콘텐츠를 분석 전 정리해 보자
- 유튜브 채널별 구독자 수, 조회수 순위
- 채널별로
최근 100 개의 영상 조회 수 평균(꺾은 선)
과구독자 수(막대)
비교 ->꺾은 선 그래프
로 하면 눈에 잘 보일 것 같음 (이건 조회 수 평균이 아니더라도 댓글 수나 좋아요 수로도 가능할 것 같다
꺾은 선 그래프
범례 선택하면 선 보이게 하고 안 보이게 하는 기능 사용하면 어떨까 (비교에는 가장 좋은 것 같음)- 추출한 타이틀만 뽑아서 타이틀로
Word Cloud
만들어 보기 일단은 조회 수로만 (유튜버별, 전체)- 각 유튜버의 ViewCount 상위 3-4개의 영상만 뽑아서 Url이랑 썸네일로 보여 주기 (만약 유튜버별 콘텐츠 추가하고 싶다면 좋을 듯)
matplotlib
과 seaborn
을 통해서 추출할 수 있었다. 그 과정에서 pandas를 통해 DataFrame으로 만들어 두면 seaborn으로 출력할 때 정렬을 조금 더 쉽게 할 수 있다는 것을 알게 되었다.데이터 할당량을 초과하지 않고 어떻게 쓸 수 있을까
인 것 같다. 매번 다시 조회를 해 오게 한다면 금방 할당량을 초과해 버리고 만다. 1 번으로 분석 시간이 끝났으나 1 번부터 4 번까지가 모두 들어간 화면이면 좋을 것 같다는 생각을 했다.데이터 분석 및 가공, 적재
와 프론트 & 서버 구축
으로 나누기로 하였다. 나는 프론트 & 서버 구축
을 맡게 되었는데 아마 서버가 주가 될 것 같다.1. seaborn 그래프의 정렬