[Project] StoryTunes (1) - 기획

Eunjin Ko (Jinny) ·2023년 12월 14일
0

[Project_StoryTunes]

목록 보기
1/2

1. 프로젝트 개발 배경

텍스트의 감정과 음악 감정을 연결하여 각 챕터에 어울리는 배경음악을 동적으로 제공하고자 이 프로젝트를 기획하게 되었다.

평소 독서와 음악듣는 것을 좋아하는데 둘이 같이 하게되면 집중도가 결국 한쪽에 치우치게 되곤 했다. 두가지 감각을 동시에 높은 집중도로 만족시킬 순 없는 것인가 싶으면서도 배경음악 없는 영화나 드라마는 상상 할 수 없다.
그래서 두 감각이 적절히 융화 될 수 있는 같은 카테고리가 필요하다고 생각했다.

덜 직접적으로 느껴지는 글의 감정

인간은 얼굴 표정이나 색상과 같은 시각적인 요소로 주로 감정을 느낀다. 이에 못지않게 음악의 리듬,멜로디,조성도 듣는이에게 풍부한 감정을 전달 해 준다.
하지만 글에서 표현되는 감정이나 분위기를 느끼기위해서는 우선 독자의 상상력이 필요하다. 독자는 글을 읽으면서 주어진 정보를 바탕으로 자신만의 상상을 만들어내기 때문에 음악이나 영화에서 보여지는 것보다 덜 직관적으로 느껴질 수 있다.
또한 글은 언어를 통해 전달되기 때문에 추상적인 개념을 표현하는데 한계가 있는 언어로는 감정을 완전하게 전달하기 어렵다.

따라서 이 프로젝트는 글을 읽는 동안 감정적으로 더 깊이 몰입하고 싶어하는 독자들에게 도움을 제공하여 텍스트의 감정을 음악과 연결하여 독서 경험을 풍부하게 만들어줄 것이다.

2. 모델

이 프로젝트를 구현하기 위해서는 여러종류의 모델이 필요하다.

2-1. 텍스트,음성 모델 따로 설계 할 경우

텍스트 감정 분석 모델

각 챕터의 텍스트를 분석하여 해당 챕터의 감정을 추출하는 모델이 필요.

  • BERTGPT 같은 대형 언어모델을 이용해서 텍스트의 분위기/감정을 추출. GPT모델을 사용해서 일종의 fine_tuning.
    (ChatGPT API를 통해서 추출하는거랑은 다른 거임)

  • Supervised Learning을 통해 특정 분위기의 텍스트 데이터를 수집하고, 이를 각 분위기 종류에따른 카테고리로 라벨링 후 전처리 (토큰화,임베딩)

  • Google AI Platform에서 제공한다면 사용 (배포까지 지원 할 것 같음) . or Hugging Face

음성 감정 분석 모델

  • 음악 데이터 셋 라벨링
    : 일반적으로 사람이 수동으로 함(^^..) 하지만 너무 작업 많기 때문에 자동라벨링 기법 사용 가능, 음악의 템포,리듬,음색등을 분석하는 모델 만들어서 써도 될듯.
  • 음성 데이터가 있을 경우, 음성 감정 분석 모델을 사용하여 음성의 감정을 추출.

2-2. 텍스트,음성 모델 같이 설계 할 경우

이 프로젝트에서는 텍스트,음악 두 부분의 학습이 이루어져야 하는데 멀티모달(Transformer) 을 활용하여 두개의 모델을 따로 설계하지 않고 같이 훈련 하고자 한다.

멀티모달 (Transformer)

  • 멀티모달은 두 개 이상의 입력 모달리티에 대한 정보를 입력 받아서 이들간의 상호작용을 학습하고 유의미한 특성을 추출한다. 따라서 텍스트 모달과 음성 모달의 관계를 모델링 하는 것이다.

  • 멀티모달 어텐션 메커니즘이나, Cross-Model 어텐션 등등 가능하다.

  • 라벨링이 중요, 텍스트나 음악은 한개의 감정이나 분위기 라벨링 갖지 않는다. 따라서 다중 라벨 분류가 필요하다.

Q. 모델은 결국 텍스트만 입력을 받아 어떠한 카테고리를 추출 해 내는것이고 그 카테고리에 맞는 음악을 가져오는것은 단순한 검색에 불과한 것 같은데 왜 둘을 같이 훈련 시키나?

A. 멀티모달 모델은 텍스트와 음악 데이터 간의 상호작용을 학습함으로써, 사용자가 어떤 텍스트를 입력했을 때 어떤 종류의 음악이 적합한지를 이해하게 된다. 따라서 단일 모달리티 모델보다 더 풍부한 정보를 제공할 수 있다.

2-3. 음악 생성 또는 선택 모델

음악 생성/추천 모델은 멀티모델의 성능에 부족할 시 의 보험 같은것..

이 프로젝트에서는 음악을 생성하거나 미리 수집된 음악 데이터셋에서 적절한 음악을 선택하는 모델이 필요하다.

  • 음악 생성에는 GAN 이나 VAE를 사용할 수 있음.
  • 미리 수집된 음악 데이터 셋에서 추천

0개의 댓글