Zoltraak

Kyu hyunSung·2024년 8월 8일

말하는 다키마쿠라

목록 보기

3/6

https://www.youtube.com/watch?v=XPXXpIx0LCE&t=267s

위 영상을 보고 Satoru Gojo말고 다른 마키마쿠라를 만들어보기로 했다.

상대는 장송의 'Frieren'

https://www.youtube.com/watch?v=G5zaNlOsDYE

재밌으니 꼭 한번 봐보는것을 추천한다.

본격적으로 시작해보자.

일단 프롬프트로 위키의 내용을 통해 프리렌의 역할을 해주고,

아래의 프리렌 나무위키 pdf를 참고하라고 주문을 하였다.

이정도의 결과를 내뱉는다. 좀더 프롬프트를 해보도록 하자.

지침에 쓴 내용을 요약하자면

프리렌의 이미지 만들기.
프리렌의 말투 적용하기
말투 적용시키기 등등...

최대한 프리렌의 성격 자체를 적용시키는 방향으로 진행하였다. 여러분들도 각자 원하는 캐릭터를 위해
성격과 말투를 분석하도록 하자.

만약에 너무 추상적이고 어떻게 해야할지 모르겠다면?

아래방법을 따라해보자

1. 설정집과 대본을 찾아보자

설정집은 대부분 구글에 자신이 원하는 캐릭터 혹은 인물에 대해 검색하면

나무위키나 다른것들이 나온다. 주로 있는건 위키피디아, 나무위키, 팬덤위키(애니)

https://frieren.fandom.com/wiki/Frieren

https://namu.wiki/w/%ED%94%84%EB%A6%AC%EB%A0%8C

이런곳에서 대충

PDF로 저장을 골라서 인쇄하듯이 뽑아내자.

다음은 대본집, 이것도 역시 구글링해서 찾아보자.

https://agibbyeongari.tistory.com/2230

적당한 대사가 필요하다만 이정도로도 충분 할 수 있겠으나, 추후 설명할 XTTS 파인튜닝에 대해

작업하기위해서 음성파일 구하고 거기서 대본을 추출하는 방법을 알려주도록 하겠다.

1-2. 음성파일과 Whisper를 이용한 대본작업

주의: GPU와 어느정도 성능이 필요한 작업일 수 있다.

필자의 컴퓨터는 RTX 3060에서 작업을 진행했다.

음성 추출 방법

필자는 애니 영상들로부터 Vocal과 instrument를 분리하는 작업을 진행하기 위해,

Ultimate Vocal Remover(UVR)을 사용했다.

https://ultimatevocalremover.com/

https://github.com/Anjok07/ultimatevocalremovergui

나도 자세한방법은 몰라서 이세팅으로 진행했다. 아무튼 이렇게 잘 나눠주면

이런식으로 Vocal과 instrumental을 나눠줄 수 있다. GPU Coversion을 누르면 GPU가 사용되니
작업환경에서 진행을 하도록 하자.

이제 이 음성을

이런식으로 하나하나의 음성마디를 따야한다. 그걸 위해선

음향 편집 프로그램을 사용해서 노가다를 하도록 하자.

무료 프로그램으로는 Audacity를 추천한다.

참고로 음성을 딸때, 최대한 평온한 일상의 톤위주로 따야하고, 잡음이나 그런것들이 섞이지 않은것이면

더 좋다.

장송의 프리렌 기준, 1화에서 나온 양이 100개 조금 넘어가니 참고하고 따면 될 것이다.

만약 파인튜닝까지 생각이있으면 하고, 아니면 어느정도로만 작업을 하도록 하자.

whisper

Open ai에서 개발한 자동 음성 인식 모델 (Automatic Speech Recognition, ASR)

오픈 소스이다. 직접 설치 할 수도있고, Open ai에서 제공하는 API를 통해 유료로 사용도 가능하다.

각자 상황에 맞춰서 사용하도록 하자. 필자는 직접 설치로 사용했다.

https://openai.com/index/whisper/

https://github.com/openai/whisper

Whisper의 자세한 사용방법은 추후에 설명하도록 하겠다.

이런식으로 파일작업을 하면 GPU를 가득가득 사용하게된다.

필요한 만큼만 작업하자.

실제 작업 한 대본중 하나인데 꽤 정확하다.

아무튼 이런식으로 txt파일로 대본집을 모아보자

(파이썬 코드에따라, csv파일로도 뽑을 수 있다.)

그다음 GPTS 탐색을 통해 Prompty를 찾아주자. 프롬프트를 더 쉽게 도와주는 GPTS이다.

혹여나 자신이 찾은 다른 프롬프트 방식이 있거나 직접 프롬프트를 작성하겠다면 말리진 않겠다.

대충 나왔으면

이렇게 복붙을 해주자.

한국어로 번역을 해도 적용이 잘 돼니 원하면

https://www.deepl.com/ko/translator

여기서 번역을 돌려보도록 하자

(영어가 더 잘 받는 느낌이 있어서 필자는 영어로 진행한다.)

미리보기로 잘 진행되나 확인해보자

위에처럼 짜치는 대답이 나오면 프롬프트를 수정해주자.

감다살

여기까지가 GPTS의 더 구체적인 프롬프트와 대본들을 통해 Satoru Gojo보다 더 실감나는

AI프리렌을 만들었다.

여기서 우리는 챗봇을 사용하게 되겠지만, 필자는 API를 활용하려고 한다.

우리는 여기서 두가지 선택지가있다.

적은 프롬프트와 파일들을 그대로 openai Assistants로 적용시켜서 작업,
-> 유료 API로 결제가 필요함
현재 여기까지 만든 GPTS를 Selenium 을 통해 API(물리) 구현하기

필자는 1번을 통해 XTTS까지 적용해볼 예정이고, 2번을 통해 미연시같은느낌의 인터페이스를 이용해
구현해 볼려고한다.

참고링크 : https://sesang06.tistory.com/216

A I프리렌 체험하기 : https://chatgpt.com/g/g-oiGDwoHdN-frieren

Kyu hyunSung

디지털 치매 예방

이전 포스트

"이겨"

다음 포스트

Zoltraak

말하는 다키마쿠라

1. 설정집과 대본을 찾아보자

1-2. 음성파일과 Whisper를 이용한 대본작업

"이겨"

이세계 연결통로

0개의 댓글