
TF-IDF로 각 스크립트의 단어를 벡터로 변환
단어들과 조회수와 상관관계를 구함

연예인 및 유명인 ('sikyung', 'dongyup', 'superstar') : 연예인이 출연하는 콘텐츠는 조회수와 상관관계가 있어보인다.
음식 관련 단어 ('eateries', 'cows', 'jjabaegi', 'offal', 'oxtail', 'entrials'): 고기나 특이한 식재료를 사용하는 음식이 조회수와 상관이 있어보인다.
음료 및 파티 문화 ('booze', 'tipsy', 'bottoms', 'hungover'): 음주와 관련된 콘텐츠가 조회수와 연관이 있을거라 생각된다.
영상별 TF-IDF 높은 점수 단어 추출
추출하는 개수를 달리하면서 변화를 봄

-> 영상별 어떤 말을 많이 했는지 파악
추출한 단어를 GPT 임베딩
추출한 단어를 GPT임베딩으로 임베딩하여서 의미상 비슷한 공간에 위치
클러스터링
영상별 단어들의 집합들이 서로 비슷한 것끼리 군집. 클러스터링의 개수는 실루엣 점수를 이용하여 정함.

클러스터링한 군집들과 조회수와의 관계를 살펴봄

-> 군집에 속하는 영상들의 평균조회수를 측정
조회수와 관계가 높은 군집의 특징을 살펴봄
조회수와 관계가 높은 군집의 특성이 곧 조회수에 영향을 많이주는 특성이라고 간주할 수 있다.
- 해산물 음식에 관련된 단어가 조회수와 많은 연관이 있을 것으로 추정
'jeotgal', 'flatfish', 'eel', 'sashimi', 'salt', 'busan', 'doenjang', 'fish', 'restaurant', 'hof', 'curry', 'chicken'- 음료와 술에 관련된 단어가 조회수와 많은 연관이 있을 것으로 추정
'beer', 'drink', 'wine', 'fridge', 'ice'
