AI 음성 변환 프로그램 'Applio' 사용법 및 후기

MIN·2024년 12월 11일

AI

목록 보기

1/1

안녕하세요! tts관련해서 오픈소스를 뒤적거리던 중 'Applio'를 사용해본 후기를 공유합니다. 오픈소스를 처음 사용하는 저로서는 사실 이번이 좀 도전이었는데요. 그래도 여러분들은 저처럼 헷갈리지 마시라고 올립니다.

설치

설치: GitHub에서 ZIP 파일 다운로드 또는 git clone.
실행: BAT 파일 실행. ```

run-applio.bat

파일을 실행하면 UI가 뜨면서 본격적으로 시작이 가능합니다.
3. 단, 초기에는 음성모델이 빈 상태이므로 RVC 모델 다운로드 필요합니다.
(모델 입력: 다운로드한 모델을 '모델입력' 폴더에 넣기)

인터페이스

UI는 깔끔해서 사용감이 나쁘진 않습니다. 처음 실행하시는 분들은 저기 음성 모델과 인덱스 파일이 공란이실 건데요.

rvc 파일을 구하셨다면 여기 모델 링크를 넣거나, 아니면 pth와 index 파일을 직접 업로드하고 다시 재실행하시면 반영이 됩니다.

전 rvc 파일을 허깅페이스에서 구했습니다. 첫번째로 사용한건 호머심슨의 버전이었는데요.

기능1 일반 음성 변환 (voice to voice)

테스트 음성은 제가 좋아하는 배우, 페드로 파스칼(Pedro Pascal)의 인터뷰 중 짧은 버전을 잠깐 예시로 사용했습니다. 잠시만 목소리를 빌리겠습니다. (_ _)

원본 목소리

그리고 이게 호머심슨 버전입니다.

호머심슨 버전

변환 전후를 비교해서 들으시면 아시겠지만, 상당히 자연스럽게 보이스를 바꾼 것을 아실 수 있습니다. 원본 음성의 톤과 억양을 그대로 호머심슨 버전으로 바꾼 것이 자연스러워서.. 사실 좀 놀랐습니다. 물론 나중에 이를 상용화해서 어디다가 써먹으실 분들은 저작권이나 여러가지 것들을 고려해야겠지만요.

기능 2 TTS(Text-to-Speech) 변환

tts변환을 하기 위해서는 간단한 단계가 있습니다.

1. ES 모델 설정

먼저 ES(Edge-Speech) 모델을 설정해주세요
이는 기본적인 음성 품질을 결정하는 중요한 단계입니다.

예를 들어 남자 목소리인데, es 모델이 여성이면.. 어.. 혼란이 오겠죠?

2. 임베더 모델 선택

고급설정에 누르면 임베더 모델 선택 부분이 있는데, 여긴 그냥 아무것도 건드리지 말길 바랍니다..
contentvec 쓰세요.. 리멤버!

언어별 설정 팁

영어 음성: EN-US-BrianNeural 남성 추천
한국어 음성: ko-KR-SunHiNeu (여성) 추천
- 약간의 교포 느낌이 있지만 자연스러운 발음
- 한국어 처리도 꽤 준수한 편입니다

실제 사용 예시(영문)

영문 목소리(TTS)

실제 사용 예시(한글)

한글 목소리(TTS)

후기

1.5 같은 중간에 숫자와 .이 혼용되면 이상하게 읽는 부분이 있더군요. tts 결과도 준수합니다.. 비록 어떤 모델을 선택하느냐에 따라 TTS모델의 발음이나 그런게 달라지겠지만요.

여성 모델에서는 한글 발음이 교포처럼 느껴졌는데, 남성모델은 자연스럽게 나오더군요. 데이터의 힘일까요...? (의문)

기능3 음성융합 (VOICE MIXING)

Applio의 또 다른 강력한 기능인 음성 융합에 대해 설명드립니다.

음성 융합이란?

두 개 이상의 음성 모델을 섞어서 새로운 목소리를 만드는 기능
예를 들어, A 목소리 70% + B 목소리 30%와 같이 비율 조절 가능
독특하고 창의적인 음성을 만들 수 있는 실험적인 기능

위에서 보시는 것처럼 RCV가 되는 두개의 파일을 놓고 밑에 비율기를 조정해서 자신이 원하는 목소리의 음성 모델을 가질 수 있게끔 하는 기능인데요.

테스트해본 결과 기능은 확실하지만, 비율 맞춰서 일일히 확인하기 번거롭다는 점이 한가지 흠이네요.. 만약 원하는 RCV가 없다면 이렇게 제작하는 방법도 있답니다(?)

기능 4: 데이터 훈련 및 기타 기능

아직 직접 사용해보지는 않았지만, Applio의 숨겨진 강력한 기능들을 소개합니다!

커스텀 음성 모델 훈련

원하는 목소리가 RVC 모델에 없다면 직접 만들 수 있습니다
예를 들어:
- 좋아하는 유튜버의 목소리
- 나만의 목소리
- 특정 캐릭터의 목소리

훈련에 필요한 것들

음성 데이터
- 깨끗한 음성 샘플 (배경음 없는)
- 20분 이상의 음성 데이터 추천
- 다양한 문장과 감정이 포함된 음성일수록 좋음
컴퓨터 사양
- GPU가 있으면 훨씬 빠른 훈련 가능
- 훈련 시간은 데이터량과 컴퓨터 성능에 따라 다름

주의사항

저작권에 주의해주세요
개인적인 용도로만 사용하는 것을 추천
음성 주인의 동의를 받고 사용하는 것이 좋습니다

향후 시도해볼 계획

실제 음성 훈련 과정 테스트
결과물 품질 확인
다양한 설정값 실험

더 자세한 내용은 실제 사용해본 후에 업데이트하도록 하겠습니다! 😊

MIN

코딩에 빠짐