[Project] StoryTunes (2) - Data

Eunjin Ko (Jinny) ·2023년 12월 18일

[Project_StoryTunes]

목록 보기

2/2

Dataset의 상황에 따라 프로젝트 전반적인 언어를 결정 해야 하려한다.
(물론 Data 많은 쪽으로..)

글의 감정이나 분위기를 이해하기 위한 텍스트 데이터가 필요하다. 내용이나 이야기를 포함하는 어떤 소설의 일부나, 대본 같은 데이터가 있으면 좋을 것 같다.

Sentiment140 dataset with 1.6 million: tweetshttps://www.kaggle.com/datasets/kazanova/sentiment140

Dataset of songs in Spotify
https://www.kaggle.com/datasets/mrmorj/dataset-of-songs-in-spotify

단순 "기쁨,슬픔,놀람" 식의 감정/분위기가 아닌 구체적이고 섬세한 라벨링(Categories) 가 필요함.

이 프로젝트는 텍스트 감정, 음악 감정 두 모달리티가 같이 Train 되는 멀티모달을 목표로 하고 있기 때문에, 이 학습 과정을 위한 합쳐진 데이터가 필요하다.

일단 감정 라벨값을 공통으로 갖기 때문에 'emotion_label'을 기준으로 텍세트 데이터와 음악데이터를 병합 할 수 있다.

결과로는 하나의 데이터프레임이 생성되며, 이를 통해 각 샘플에 대한 텍스트 데이터, 음악 데이터, 그리고 감정 라벨이 함께 포함된 통합된 데이터셋을 얻을 수 있다.