[Project] StoryTunes (2) - Data

Eunjin Ko (Jinny) ·2023년 12월 18일
0

[Project_StoryTunes]

목록 보기
2/2

1. DataSet

Dataset의 상황에 따라 프로젝트 전반적인 언어를 결정 해야 하려한다.
(물론 Data 많은 쪽으로..)

Text Data Set :

  • 글의 감정이나 분위기를 이해하기 위한 텍스트 데이터가 필요하다. 내용이나 이야기를 포함하는 어떤 소설의 일부나, 대본 같은 데이터가 있으면 좋을 것 같다.

Sentiment140 dataset with 1.6 million: tweetshttps://www.kaggle.com/datasets/kazanova/sentiment140

Music Data Set:

  • 각 텍스트에 어울리는 다양한 감정과 분위기를 나타내느 음악이 필요하다. 저작권 없는 음악 데이터가 필요하다.

Dataset of songs in Spotify
https://www.kaggle.com/datasets/mrmorj/dataset-of-songs-in-spotify

2. Labeling

단순 "기쁨,슬픔,놀람" 식의 감정/분위기가 아닌 구체적이고 섬세한 라벨링(Categories) 가 필요함.

이 프로젝트는 텍스트 감정, 음악 감정 두 모달리티가 같이 Train 되는 멀티모달을 목표로 하고 있기 때문에, 이 학습 과정을 위한 합쳐진 데이터가 필요하다.

일단 감정 라벨값을 공통으로 갖기 때문에 'emotion_label'을 기준으로 텍세트 데이터와 음악데이터를 병합 할 수 있다.

결과로는 하나의 데이터프레임이 생성되며, 이를 통해 각 샘플에 대한 텍스트 데이터, 음악 데이터, 그리고 감정 라벨이 함께 포함된 통합된 데이터셋을 얻을 수 있다.

0개의 댓글