[Speech] Acoustic Phonetics

누렁이·2024년 1월 17일
0

Speech (ASR/TTS)

목록 보기
2/15

Reference: [재작성] https://ratsgo.github.io/speechbook/docs/phonetics/acoustic

Wave

  • 웨이브(wave, 파동): 반복적으로 진동(oscillate)하는 신호(singal)

    • According to 푸리에 정리(Fourier Theorem), 아무리 복잡해보이는 웨이브도 삼각함수인 사인(sine)이나 코사인(cosine)의 합으로 나타낼 수 있음
  • 알아둬야할 용어!

    • x축: 시간 (second)
    • y축: 음압 (sound pressure)
      • 음압: 공기 입자가 인접 공기 입자를 진동으로 미는 힘

        사람 말소리가 음성 마이크에 달린 진동판을 울리게 하는 방식으로 녹음하게 된다고 하는데요. 이 진동판의 떨림이 전기 신호를 얼마나 강하게 혹은 약하게 하는지 정도가 y 축을 구성한다 보면 될 것 같습니다.

    • 진폭(amplitude): 웨이브 최대값(초록)
    • 사이클(cycle): 패턴 반복 (파랑, 사이클 1회)
    • 주기(period 혹은 wavelength): 한 사이클 도는 데 걸리는 시간(빨강)
    • 주파수(frequency): 1초에 몇 번 주기 반복되는지(cycles per second)
    • cycles per second = 헤르츠(hertz, Hz)
    • T=1fT=\frac { 1 }{ f } (주기 T, 주파수 f)

모음 iy 발음할 때의 wave viz

Digitization

continuous -> digital 변환

1) Sampling:

  • sampling rate:
    일정한 시간 간격마다 음성 신호를 샘플해서 연속 신호(continous signal)을 이산 신호(discrete signal)로 변환.이때 1초에 몇 번 샘플하는지 나타내는 지표

    • 1초에 4만4100번 샘플한다면
      • sampling rate fs = 44100, or 44.1KHz
      • 1초에 44100개 실수(real number)로 구성
  • 샘플링된 신호 복원:

    • 나이퀴스트 정리(Nyquist Theorem): 원래 신호가 가진 최대 주파수의 2배 이상으로 샘플링하면 원래 신호를 충분히 재생 가능

      보통 인간의 가청 주파수 영역대는 20~20000Hz로 알려져 있는데요. 40000Hz 이상의 sample rate로 샘플링을 실시하면 사람이 들을 수 있는 거의 모든 소리를 복원할 수 있다는 것

    • 나이퀴스트 주파수: 목표 음성 신호의 최대 주파수(20000Hz)
  • Anti-Aliasing:

    • alias frequency (or ghost frequency): 원래는 나이퀴스트 주파수보다 높았던 고주파 성분이 샘플링 때문에 저주파로 왜곡된 경우
    • Anti-aliasing filter: 나이퀴스트 주파수보다 낮은 주파수 영역대만 통과시키는 bandpass filter를 써서 나이퀴스트 주파수보다 높은 주파수 영역대를 샘플링 하기 전에 미리 없애놓는 것

2) Quantization (양자화)

  • quantization: 실수 범위의 이산 신호를 정수(integer) 이산 신호로 변환
    • 8비트 양자화: 실수 범위 이산 신호 -128~127의 정수로
    • 16비트 양자화: 실수 범위 이산 신호 -32768~32767 정수
    • 양자화 비트 수(Quantization Bit Depth)가 커질 수록 원래 음성 신호의 정보 손실을 줄일 수 있지만 그만큼 저장 공간이 늘어나는 단점
  • comapnding (압신):
    • 양자화 noise 줄이기 위해 사용
    • 정보 압축과 해제와 관련해 특정 룰 약속
    • 어떻게 companding하냐에 따라서 자연스러운 음성 신호 뽑을 수 있는 것이군

3) Encoding

  • 정보 소스를 디지털 형식으로 변환, 압축, 저장하는 일련의 과정
  • 지금까지 처리한 입력 신호를 전송 혹은 처리가 가능한 형태의 파일로 변환
    • wav (압축하지 않은 오디오 포맷),
    • flac (무손실 압축)
    • mp3 (손실 압축)

Loudness

  • 소리의 크기: 진폭(amplitude)이 큰 (power) 신호를 큰/시끄러운 소리로 인식
    • but, 사람은 특정 주파수 영역대의 신호는 상대적으로 큰 소리로 인식하기도 함.
    • decibel: 소리 크기 단위
      • 값들 사이의 상대 비율

        전화기를 발명한 알렉산더 그레이엄 벨(Alexander Graham Bell)의 업적을 기리는 의미에서 단위명에 그의 이름을 붙인 것

Pitch

  • 말소리의 높낮이
  • 멜 스케일(mel scale):
    • 사람이 인식할 수 있는 피치 단계로 주파수 영역대 구분
    • 사람이 분간을 잘하는 1000Hz 이하 저주파 영역대는 멜 스케일이 거의 선형에 가깝도록 세밀하게, 분간을 덜 잘하는 고주파 영역대는 멜 스케일이 듬성듬성하게 변화 (뒤에 mfcc에서도 나오는데!)

opensmile
https://audeering.github.io/opensmile-python/api/opensmile.Smile.html


Vowels

  • 모음(vowel)이 자음(consonant)보다 진폭이 크고 패턴 규칙적

    • “She just had a baby”
  • Formant: 펙트럼에서 음향 에너지가 몰려있는 각각의 봉우리

    • 사람의 말소리 인식에 중요한 포만트 정보를 얼마나 잘 처리하느냐가 음성 인식 모델의 성능을 좌우
    • 각 봉우리를 F1, F2헉헉 open smile에서 나온 feature 잖아!

The Source-Filter Model

  • 음성학에서 사람의 말소리(특히 모음)가 생성되는 과정 모델링한 이론

  • 소스가 다르면 음색이나 피치가 달라지고, 필터가 다르면 모음의 종류가 달라진다.

profile
왈왈

0개의 댓글