Dataset의 상황에 따라 프로젝트 전반적인 언어를 결정 해야 하려한다.
(물론 Data 많은 쪽으로..)
Sentiment140 dataset with 1.6 million: tweetshttps://www.kaggle.com/datasets/kazanova/sentiment140
Dataset of songs in Spotify
https://www.kaggle.com/datasets/mrmorj/dataset-of-songs-in-spotify
단순 "기쁨,슬픔,놀람" 식의 감정/분위기가 아닌 구체적이고 섬세한 라벨링(Categories) 가 필요함.
이 프로젝트는 텍스트 감정, 음악 감정 두 모달리티가 같이 Train 되는 멀티모달을 목표로 하고 있기 때문에, 이 학습 과정을 위한 합쳐진 데이터가 필요하다.
일단 감정 라벨값을 공통으로 갖기 때문에 'emotion_label'을 기준으로 텍세트 데이터와 음악데이터를 병합 할 수 있다.
결과로는 하나의 데이터프레임이 생성되며, 이를 통해 각 샘플에 대한 텍스트 데이터, 음악 데이터, 그리고 감정 라벨이 함께 포함된 통합된 데이터셋을 얻을 수 있다.