오늘도 이어서 https://ratsgo.github.io/speechbook/docs/phonetics/acoustic 를 참고하여 공부한다 !!
사람 말소리에 대한 이해 !!
음성학
사람이 말할 때 이용하는 소리를 물리적으로 분석
세부 분야 => 음향음성학 중심 !!으로 보자 !!
음운론
말소리의 물리적인 실체를 다루기 보다는, 언어를 쓰는 사람의 머릿속에 있는 말소리에 대한 지식을 체계적으로 기술+ 설명하는 분야
음운론과 관련한 주제로는,
단순파 (파란색)
x축: 시간 (초) / y축: 음압 (공기 입자가 진동에 의해 인접 공기 입자를 미는 힘)
음압
진폭: 웨이브의 최대값(녹색)
사이클: 패턴의 반복
주기" 한 사이클을 도는데 걸리는 시간(빨강)
주파수: 1초에 몇 번 주기가 반복되는가 (cycles per second => 헤르츠 라고도 부름)
주기(T) = 1/f(주파수)
사람 말소리
주기가 길고/짧은 여러 개의 단순파의 합 => 복합파 형태로 나타나짐
주파수 계산 가능 (반복되는 패턴 통해)
예) 사이클 10회 반복까지 0.03875초 걸려서 -> 웨이브 주파수는 10/0.03875 = 258Hz
Q. 말소리를 디지털 신호로 어떻게 변환할까? (음성신호의 디지털 변환)
1. Sampling
일정한 시간 간격마다, 음성 신호를 샘플해
1초에 몇 번 샘플하는지 나타내는 지표 = sampling rate
말소리를 전송, 녹음했다가 재생하는 경우가 있음
해결책: 나이퀴스트 정리
그런데 "문제가 있어서" 등장한, [Anti-Aliasing]
나이퀴스트 정리 기반, 6번 샘플링 (빨간 화살표)
그러면, 복원한 결과(파랑) => 왜곡생김
샘플링 때문에, 저주파로 왜곡된 나이퀴스트 주파수(여기서는 파란색)보다 높은 원래 신호의 고주파 성분을 => "alias frequency", "ghost frequency"
그래서 왜곡 현상 막기 위해 "Anti-aliasing filter" 사용
(a) 주파수 도메인에서 이상적인 "bandpass filter"
문제점 -> 이렇게 사각형 모양이 되려면, 시간 도메인에서 필터의 길이가 무한해야 함 (시간이 무제한으로 있어야지, 계속 높은 애들을 필터링 할 수 있다는 뜻인건가?????)
(b) 현실적으로 쓰는 "bandpass filter"
2. 샘플링된 신호에 양자화 실시
예) 8비트 양자화 -> 실수 범위의 이산신호 -128~127 사이 정수 / 16비트 양자화 -> 실수 범위 이산신호 -32768~32767 사이 정수
양자화 비트수가 커지면 => 원래 음성 신호 정보 손실 줄일 수 있음 (장점) + 저장 공간 늘어남 (단점)
양자화 잡음(noise): 양자화 실시에 따른 정보 손실
양자화 대상 실수 범위의 이산신호 (x) -> 해당 신호를 양자화하는 함수 F
이산 신호 샘플 수 (N)개 일때 power의 수식
power외에 intensity라는 지표도 자주 쓰임
=> 해당 지표를 통해, 사람이 들을 수 있는 가장 작은 소리 (P_0) 대비 데시벨(dB) 기준으로 power가 얼마나 큰지 확인 가능
[decibel]
피치: 말소리의 높낮이
사람은 100Hz~1000Hz에 이르는 구간의 소리는 -> 주파수가 커질 수록 피치도 높아진다고 느끼는 경향 있음
전체 주파수 영역대를 사람이 인식하는 피치의 단계로는 못나눌까?
예) She just had a baby
=> 모음이 진폭 크고, 패턴 규칙적 (자음보다)
왜?
모음 iy(시간 도메인의 웨이브)에 푸리에 변환(Fourier Transform)을 수행해 주파수 도메인으로 변환하면 -> 패턴 !
(x축 주파수, y축 진폭)
(이 그림은 화자가 맨 마지막 단어의 마지막 음소(iy)를 발화할 때의 순간의 스냅샷? -> 그걸 스펙트럼으로 분석했다고 이해해보자 !)
스펙트럼: 특정 시점의 입력 음성 신호를 주파수 도메인으로 변환한 것
포만트: 그림 10의 스펙트럼에서 음향 에너지가 몰려있는 각각의 봉우리
x축 시간, y축 주파수, 명도 - 진폭
동일한 화자가 발화한 모음 ih, ae, uh 스펙트로그램
음성 인식
말소리: 여러 주파수로 구성
기본 주파수: 주파수에서 최대공약수 (말소리의 특색을 결정하는 데 중요한 역할을 함)
배음: 기본 주파수에 정수배에 해당하는 주파수
정의: 음성학에서 사람의 말소리가 생성되는 과정을 모델링한 이론
사람의 성문을 Source, // 소스, 혀 입술 등 조음기관을 Filter
예) 모음 iy, ae, uw 는 사실 같은 source에서 파생되었지만, 조음 방법에 따라 (Filter가 바뀜에 따라) => 말소리가 달라짐