[10주차] 국뽕봇 프로젝트

김동영·2022년 2월 15일
0

서브 프로젝트로 팀을 만들어 국뽕봇 만들기를 수행하고 있다.

목표는 유튜브 등에서 볼 수 있는 소위 국뽕채널이 일정한 패턴을 보인다고 가정, 그 패턴을 흉내내는 봇을 만드는 것이다.

이를 위한 시작 단계로, 이러한 국뽕 영상의 제목을 흉내내는 봇을 만드려고 하며,

일정 수의 구독자를 보유한 채널들을 국뽕 리스트라고 판단, 이 리스트에서 크롤링을 통해 각 영상의 제목을 추출한다.

추출된 제목의 키워드 그래프를 만들었는데 다음과 같다.

크롤링한 데이터를 KoNLPy를 사용하여 명사를 추출,

추출한 명사 리스트를 counter를 활영하여 빈도를 계산하고

계산된 빈도 리스트를 dict로 변경하여

Word Cloud 라이브러리를 사용하여 만들었다.

팀원들과의 분석 내용 공유 전에, 정제되지 않은 임시 데이터 분석이지만 상당히 납득할만한 내용인 것 같다.

데이터는 현재 9261개의 영상에서 추출된 제목들에서

KoNLPy를 통해 102190개의 단어가 추출되었고

상위 10개 단어의 빈도는 다음과 같다.

profile
오래 공부하는 사람

0개의 댓글