Reference: [재작성] https://ratsgo.github.io/speechbook/docs/phonetics/acoustic
웨이브(wave, 파동): 반복적으로 진동(oscillate)하는 신호(singal)
알아둬야할 용어!
사람 말소리가 음성 마이크에 달린 진동판을 울리게 하는 방식으로 녹음하게 된다고 하는데요. 이 진동판의 떨림이 전기 신호를 얼마나 강하게 혹은 약하게 하는지 정도가 y 축을 구성한다 보면 될 것 같습니다.
모음 iy 발음할 때의 wave viz
continuous -> digital 변환
sampling rate:
일정한 시간 간격마다 음성 신호를 샘플해서 연속 신호(continous signal)을 이산 신호(discrete signal)로 변환.이때 1초에 몇 번 샘플하는지 나타내는 지표
- 1초에 4만4100번 샘플한다면
- sampling rate fs = 44100, or 44.1KHz
- 1초에 44100개 실수(real number)로 구성
샘플링된 신호 복원:
보통 인간의 가청 주파수 영역대는 20~20000Hz로 알려져 있는데요. 40000Hz 이상의 sample rate로 샘플링을 실시하면 사람이 들을 수 있는 거의 모든 소리를 복원할 수 있다는 것
Anti-Aliasing:
전화기를 발명한 알렉산더 그레이엄 벨(Alexander Graham Bell)의 업적을 기리는 의미에서 단위명에 그의 이름을 붙인 것
opensmile
https://audeering.github.io/opensmile-python/api/opensmile.Smile.html
모음(vowel)이 자음(consonant)보다 진폭이 크고 패턴 규칙적
- “She just had a baby”
Formant: 펙트럼에서 음향 에너지가 몰려있는 각각의 봉우리
음성학에서 사람의 말소리(특히 모음)가 생성되는 과정 모델링한 이론
소스가 다르면 음색이나 피치가 달라지고, 필터가 다르면 모음의 종류가 달라진다.