텍스트의 감정과 음악 감정을 연결하여 각 챕터에 어울리는 배경음악을 동적으로 제공하고자 이 프로젝트를 기획하게 되었다.
평소 독서와 음악듣는 것을 좋아하는데 둘이 같이 하게되면 집중도가 결국 한쪽에 치우치게 되곤 했다. 두가지 감각을 동시에 높은 집중도로 만족시킬 순 없는 것인가 싶으면서도 배경음악 없는 영화나 드라마는 상상 할 수 없다.
그래서 두 감각이 적절히 융화 될 수 있는 같은 카테고리가 필요하다고 생각했다.
덜 직접적으로 느껴지는 글의 감정
인간은 얼굴 표정이나 색상과 같은 시각적인 요소로 주로 감정을 느낀다. 이에 못지않게 음악의 리듬,멜로디,조성도 듣는이에게 풍부한 감정을 전달 해 준다.
하지만 글에서 표현되는 감정이나 분위기를 느끼기위해서는 우선 독자의 상상력이 필요하다. 독자는 글을 읽으면서 주어진 정보를 바탕으로 자신만의 상상을 만들어내기 때문에 음악이나 영화에서 보여지는 것보다 덜 직관적으로 느껴질 수 있다.
또한 글은 언어를 통해 전달되기 때문에 추상적인 개념을 표현하는데 한계가 있는 언어로는 감정을 완전하게 전달하기 어렵다.
따라서 이 프로젝트는 글을 읽는 동안 감정적으로 더 깊이 몰입하고 싶어하는 독자들에게 도움을 제공하여 텍스트의 감정을 음악과 연결하여 독서 경험을 풍부하게 만들어줄 것이다.
이 프로젝트를 구현하기 위해서는 여러종류의 모델이 필요하다.
각 챕터의 텍스트를 분석하여 해당 챕터의 감정을 추출하는 모델이 필요.
BERT나 GPT 같은 대형 언어모델을 이용해서 텍스트의 분위기/감정을 추출. GPT모델을 사용해서 일종의 fine_tuning.
(ChatGPT API를 통해서 추출하는거랑은 다른 거임)
Supervised Learning을 통해 특정 분위기의 텍스트 데이터를 수집하고, 이를 각 분위기 종류에따른 카테고리로 라벨링 후 전처리 (토큰화,임베딩)
Google AI Platform에서 제공한다면 사용 (배포까지 지원 할 것 같음) . or Hugging Face
이 프로젝트에서는 텍스트,음악 두 부분의 학습이 이루어져야 하는데 멀티모달(Transformer) 을 활용하여 두개의 모델을 따로 설계하지 않고 같이 훈련 하고자 한다.
멀티모달은 두 개 이상의 입력 모달리티에 대한 정보를 입력 받아서 이들간의 상호작용을 학습하고 유의미한 특성을 추출한다. 따라서 텍스트 모달과 음성 모달의 관계를 모델링 하는 것이다.
멀티모달 어텐션 메커니즘이나, Cross-Model 어텐션 등등 가능하다.
Q. 모델은 결국 텍스트만 입력을 받아 어떠한 카테고리를 추출 해 내는것이고 그 카테고리에 맞는 음악을 가져오는것은 단순한 검색에 불과한 것 같은데 왜 둘을 같이 훈련 시키나?
A. 멀티모달 모델은 텍스트와 음악 데이터 간의 상호작용을 학습함으로써, 사용자가 어떤 텍스트를 입력했을 때 어떤 종류의 음악이 적합한지를 이해하게 된다. 따라서 단일 모달리티 모델보다 더 풍부한 정보를 제공할 수 있다.
음악 생성/추천 모델은 멀티모델의 성능에 부족할 시 의 보험 같은것..
이 프로젝트에서는 음악을 생성하거나 미리 수집된 음악 데이터셋에서 적절한 음악을 선택하는 모델이 필요하다.