my tts 프로젝트 - 논문 리뷰 (타코트론)

김찬울·2022년 3월 19일

잡 소식..

velog로는 리뷰위주로 진행할 것이며 코드는 git hub위주로 갈 예정이다.

타코트론에 대한 이해는 아직 많이 부족하다.
필자는 이미지 처리 위주의 딥러닝만 해왔기에 자연어 관련 부분은 심각하게 부족하다.

일단 방향성을 설명하고 싶다.
학습데이터는 내가 생성한 내 목소리 데이터이며 전체적인 이해보다 부분적 이해를 바탕으로
학습목적의 프로젝트이므로 tacotron을 이용해서 보다 간편하게 음성합성 딥러닝 모델을 생성할 예정이다.

타코트론 이외에도 여러 api를 활용하여
나만의 인공지능 비서를 만들 예정이다.

음성에 대한 이해

음성이란 우리가 학창시절 국어시간에 꽤나 자세히 배우는 것 중에 하나이다.
음성은 크게 높낮이와 세기에 따라서 구별되는데
이런 점은 tts모델에서 역시 사용된다.

우리가 높은 음을 말할 때는 낮은 음을 나타낼 때보다 더 빠른 진동수를 가지고 있다.
결국 이는 헤르츠와 직관되는 문제인데 높은 음일 수록 헤르츠가 높다. 즉, 더 자주 진동한다는 의미이다.

또한 세기에 대한 이해에는 우리가 큰 소리를 말할때에는
우리가 말할 때 발생하는 파동의 진폭이 큰 편이다.
반대로 작은 소리일 수록 진폭은 낮다.

이러한 특성이 있기에 딥러닝 구조는 글자와 글자사이에 발생하는 차이를 분석하여 생성시킨 목소리가 보다 자연스럽게 나타내는 것이다.

음성 데이터의 사용

단순 음성이 아니라 음성을 데이터로 활용하려면 음성을 음성 데이터로 만들어야한다.
이러한 데이터로의 변환은 계속 이어지는 데이터(음성)을 일정 주기의 변화를 x, y좌표로 나타내면서 하나의 수치로 음성의 길이와 진폭을 알아내게 하는 것이다.

Fourier 변환

해당 변환은 데이터화 시킨 음성 즉 음성데이터를 일정 주파수를 기준으로 나누어서 해당 주파수별 차이를 보는 것이다.
여러 장단점이 있지만
가장 큰 단점으로는 시간의 흐름을 완전히 반영하지 않는것은 아니지만
결국 주파수 범위에서 벗어난 부분에 대한 것은 고려하지 않기 때문에 time데이터에 손실이 있다.

김찬울

코린코린이

이전 포스트

아도GAN

다음 포스트