Comi Project - XTTS Server(1) XTTS

Nemo_Nemo·2024년 5월 3일

코미 TTS Server

목록 보기
1/1

프로젝트 설명

기능

졸업 프로젝트의 일환으로 다음과 같은 기능을 구현해야 한다. AI의 응답 중 conversation은 TTS로 바꾸어야 하는데 이를 구현하기 위해 여러 서비스들을 조사했다.

API Service

일레븐랩스같은 특정 기업에서 제공하는 Cloning TTS기능이 존재했다. 이 경우 뛰어난 cloning TTS기능을 가지고 있었다. 따로 개발이 필요하지 않을 정도로 비용을 지불하고 기능을 가져다 사용할 수 있었다. 다만, 우리 서비스의 경우 실시간으로 약 5~10분의 대사량을 TTS로 변환해야하는데 이 경우 비용이 기하급수적으로 높아졌다.

일단 유료서비스들은 너무 너무 비싸다!

Open source - XTTS, Bark..

정말 기능과 비용을 고민하던 중 비용을 아끼기 위해 상업적으로 쓸 수 있는 오픈소스들을 정말 열심히 구글링을 통해서 찾고 있었다. 아래는 우리가 찾던 오픈소스의 기준이다.

1. 사용자의 목소리를 간편하게 복사하여 TTS로 만들 수 있어야 한다.
2. 로컬에서도 동작시킬 수 있을 정도로 가벼워야 한다.
3. Cloning TTS가 자연스럽고 원본 목소리와 비슷해야 한다.

개인적으로 서버를 빌려서 AI를 동작시킬 정도의 비용은 감당할 수 없기에 우리가 가지고 있는 미니pc에서 동작할 수 있을만큼 AI는 작아야 했다. 또한 유료 서비스만큼은 아니더라도 TTS가 원본 목소리와 비슷해야했다.
이러한 조건으로 찾던 중 그 중 딱 우리의 목적에 맞는 오픈소스를 찾을 수 있었다.

XTTS는 우리의 목적에 딱 맞았다!

아래 코드처럼 단순하게 원본 목소리를 넣고 텍스트를 넣으면 텍스트를 읽는 TTS 음성 파일이 생성된다!
정말 목적에 이렇게 딱 맞을 줄이야..

또한 github의 daswer123분께서 Docker image를 사용해서 xTTS의 간단한 서버를 파이썬으로 구축 해두셨다!

그저 빛.. 감사합니다!!
https://github.com/daswer123/xtts-api-server

0개의 댓글