안녕하세요! tts관련해서 오픈소스를 뒤적거리던 중 'Applio'를 사용해본 후기를 공유합니다. 오픈소스를 처음 사용하는 저로서는 사실 이번이 좀 도전이었는데요. 그래도 여러분들은 저처럼 헷갈리지 마시라고 올립니다.
run-applio.bat
파일을 실행하면 UI가 뜨면서 본격적으로 시작이 가능합니다.
3. 단, 초기에는 음성모델이 빈 상태이므로 RVC 모델 다운로드 필요합니다.
(모델 입력: 다운로드한 모델을 '모델입력' 폴더에 넣기)
UI는 깔끔해서 사용감이 나쁘진 않습니다. 처음 실행하시는 분들은 저기 음성 모델과 인덱스 파일이 공란이실 건데요.
rvc 파일을 구하셨다면 여기 모델 링크를 넣거나, 아니면 pth와 index 파일을 직접 업로드하고 다시 재실행하시면 반영이 됩니다.
전 rvc 파일을 허깅페이스에서 구했습니다. 첫번째로 사용한건 호머심슨의 버전이었는데요.
테스트 음성은 제가 좋아하는 배우, 페드로 파스칼(Pedro Pascal)의 인터뷰 중 짧은 버전을 잠깐 예시로 사용했습니다. 잠시만 목소리를 빌리겠습니다. (_ _)
변환 전후를 비교해서 들으시면 아시겠지만, 상당히 자연스럽게 보이스를 바꾼 것을 아실 수 있습니다. 원본 음성의 톤과 억양을 그대로 호머심슨 버전으로 바꾼 것이 자연스러워서.. 사실 좀 놀랐습니다. 물론 나중에 이를 상용화해서 어디다가 써먹으실 분들은 저작권이나 여러가지 것들을 고려해야겠지만요.
tts변환을 하기 위해서는 간단한 단계가 있습니다.
예를 들어 남자 목소리인데, es 모델이 여성이면.. 어.. 혼란이 오겠죠?
1.5 같은 중간에 숫자와 .이 혼용되면 이상하게 읽는 부분이 있더군요. tts 결과도 준수합니다.. 비록 어떤 모델을 선택하느냐에 따라 TTS모델의 발음이나 그런게 달라지겠지만요.
여성 모델에서는 한글 발음이 교포처럼 느껴졌는데, 남성모델은 자연스럽게 나오더군요. 데이터의 힘일까요...? (의문)
Applio의 또 다른 강력한 기능인 음성 융합에 대해 설명드립니다.
위에서 보시는 것처럼 RCV가 되는 두개의 파일을 놓고 밑에 비율기를 조정해서 자신이 원하는 목소리의 음성 모델을 가질 수 있게끔 하는 기능인데요.
테스트해본 결과 기능은 확실하지만, 비율 맞춰서 일일히 확인하기 번거롭다는 점이 한가지 흠이네요.. 만약 원하는 RCV가 없다면 이렇게 제작하는 방법도 있답니다(?)
아직 직접 사용해보지는 않았지만, Applio의 숨겨진 강력한 기능들을 소개합니다!
음성 데이터
컴퓨터 사양
더 자세한 내용은 실제 사용해본 후에 업데이트하도록 하겠습니다! 😊