# Phonetics & Phonology, Waveform, Spectrum, Spectogram

박경민·2023년 6월 28일

[Linguistics]

목록 보기
1/7

Approches to NLP Tasks

  • Rule-Based approach

  • Stastistical approach

통계, Data Driven, Corpus based (경험적인 방법이고, 머신러닝 기반)

  • Neural

Deep Neural Network, deep learning (엔드 투 엔드 딥러닝)

  • 인간은 언어 학습 후 완벽한 언어를 구사하나? (기계에게 줄 데이터의 문제)

  • 튜링테스트?: 보이지 않는 방에 컴퓨터, 사람, 컴퓨터 & 사람을 넣고 실제 인간이 대화한 것이 사람인가 컴퓨터인가 테스트.

  • 우리 주변의 AI는? Siri, Alexa, Bixby

  • AI의 현재는?

  • Siri 와 친구처럼 대화하는 것도 불가능.
  • 스스로 의사결정, 판단하는 단계 아님

NLP & Language Technology

  • Natural Language Processing

컴퓨터가 인간의 언어를 이해하고, 사람처럼 자연어를 말하고 쓰는 것이 최종 목표

몇가지 어려움이 존재.
상황에 대한 백그라운드를 가쳐줘야 하고 / 문법적으로 완벽하고 의미가 존재해도 이상할 수 있음 / 맥락에 의존하는 말들의 처리 문제. >> Common Knowledge! (오랜시간동안 정체성을 중심으로, 형태 및 구조의 변화, 경제성 반영)

학습 데이터 구축의 어려움 / 실시간 정보 반영X

Amguity 문제: Phonetic, Lexical Category, Semantics, Syntax/Structural

Entity Resolution 문제 (이름이 달라도 같은 사람인지 인식)

Anaphora resolution (= Refrential Ambiguity)

Coreference resolution (대명사만 가지고 같은 사람인지)

Diversity & Creativity (언어의 유연성)

Natural Language Processing (Process)

소리 인식 > 전사, 단어 분석 > 문장구조분석 Parsing > 맥락의미를 파악 > 적용에 따른 reasoning
발화 계획 > 문법 > 단어 > 음성 합성

Phonetics & Phonology

말소리와 관련된 두가지 학문.
관련된 분야를 보자!

  • recognition, synthesis 분야는 이미 많이 발전.
  • identification 인식, verification 하나의 기기에 말하는 화자들 구분.
  • seperation 오디오가 겹쳐도 분리
  • 음성 인식을 넘어 감정 인식
  • L2 발음 평가

Phonetics: 소리 그 자체, surface, physical 적인 측면을 다루고
Phonology: 소리의 가변적인 (그러나 규칙적인) 특성을 다룬다. 어떤 상항에서 왜 변하는지? 를 연구.

example)
물고기: ㅁ ㅜ ㄹ 로 쪼개고, 서로의 소리를 겹치도록 연결. Coarticulation(Phonology 의 영역)

바보: ㅂ ㅏ ㅂ ㅗ 로 쪼개고 앞 ㅂ(무성음)과 뒤 ㅂ(유성음)은 다름.

다리 vs. 달: 각 단어에서 ㄹ의 혀 위치가 다름.

Speech segmentation: contunuum > segmenting, pause, lexicon, intonation 고려.

Speech sound identification: 같은 화자에게서 나온 소리라도 각각이 다를 수 있음.

Speech sounds and symbols

consonant sounds: 조음 방법, 위치, voicing 여부

vowel sounds: 혀의 위치, 앞/뒤, 말림(rounding), 강직도

Variations: pine, spine, stop

IPA

Methods of representing sound acoustically

  • Waveform: 소리를 물리적으로 표현한 것
  • Spectrum: waveform 의 내부 구조, 그 순간의 frequency
  • Spectogram: Spectrum의 정보도 유지하면서 다시 x를 시간축으로 준 결과.

Air particle movements

충격을 가하고 > 가장 가까운 입자가 하나 밀리고 > 입자와 입자 사이 Displacement

해당 모양을 90도 돌린 것이 Waveform 이다. 따라서 Waveform 이 크게 출렁인다는 것은 입자가 그만큼 많이 움직였다 돌아왔음을 뜻한다.

  • Simulated Air Particle Movement

  • Simple wave

    단위 시간에 몇 번 주기가 반복되었는지는 >> frequency 결정.
    높낮이 >> amplitude 소리의 크기 결정 (=energy)

따라서 공기입자의 움직임 + 시간 = waveform 이다.

Loudness represented by waveform amplitude

  • 소리의 크기는 높낮이로 결정
  • 귀는 waveform 의 높이가 2배 높아져도 linear 하게 인식하지는 않는다.

Pitch represented by waveform frequency

  • 위는 0.05초에 5cycle, 아래는 10cycle 이다.
  • 따라서 위는 100Hz, 아래는 200Hz이며 2배 높은 소리의 관계를 가진다.
  • 그러나 인식에 있어서는 linear 하지는 않다. (덜 쓰는 Hz 구간일수록 더더욱)
  • Pendulum 의 길이, Sound source tenstion 과 연관이 있다.
  • 옥타브를 올라갈 때마다 Hz는 배수로 올라간다
  • 사람이 들을 수 있는 Hz 자체는 20-20,000까지지만 대부분 4000Hz까지만 민감하다.

Waves of Different Phases

  • frequency, amplitude는 같다
  • Phase 상은 달라 물리적으로 다르지만 사람은 인지 X

Types of Waveforms: Pure tones vs. Complex waves

대부분의 소리는 여러 소리의 복합으로 구성

Complex wave: one hormonic motion 보다 많이, multiple freq.

  • 같은 freq, 상 2개 조합 = amplitude 만 2배로
  • 다른 freq, 2개 조합 = 이 경우만 complex tone 이라 한다.

a), b)를 해당 시간 구간마다 JUST 더하면 새로운 조합 c) 주기가 있지만 다른 모양의 complex wave 가 만들어진다.

  • complex wave 의 주기 = freq = 높낮이는 제일 낮은 소리의 주파수로 결정된다.
  • 100Hz + 200Hz + 300Hz = 100Hz
  • 단 complex wave에서 소리의 퀄리티는 달라진다.

하나를 더 보자. 구성요소는 100, 200, 300으로 같은 재료이나 phase 가 다른 경우. 같은 재료를 넣었으나 재료를 얼마나 넣었는지에 따라 맛이 다르다. (여전히 음의 높이는 같다.)

  • 주기가 있거나(Periodic) 주기가 없음(Aperiodic)
  • 주기가 있어도 완벽히 모양이 같거나(Stictly repetitive) 완벽히 같은 모양은 아님(Nearly repetitive)

  • 주기가 있는 것은 대부분 모음
  • 따라서 모음에서 frequency 와 amplitude 모두를 결정하는 경우가 많다.

Limitation of waveform representation

  • waveform 자체가 퀄리티를 보여주지 않는다.
  • 따라서 spectrum 사용, 내부구조까지 모두 보여준다.
  • waveform 은 시간의 변화에 따른 amplitude 만 보여줄 뿐이고, 따라서 각 위치에서 어떤 frequency 를 가지는지는 '그 시점'에서 찍은 Spectrum 을 활용하면 된다.

Spectrum

가장 위에 솟아있는 것이 formant 이다.

  • frequency components with boosted energy
  • formant shaping: vocal tract filter 의 결과물 (Source-filter theory)
  • 첫 막대기를 fundamental freqeuncy 라 하며 F0이라고 부른다. Source spectrum은 F0만큼씩만 증가한다.
  • 결과 spectrum 으로 boost 된 부분을 각각 F1, F2, F3 로 정할 수 있다. 따라서 F1, F2, F3 는 F0의 배수이다.

Disadvantages of Spectrum Representation

시간이 표현되지 않았다!

따라서 x축을 시간, y축을 frequency, 특정 시간 구간에서 각 frequency 마다 amplitude 는 진하기로 표현하자. >> Spectogram!

  • 주기가 있는 것(모음) 없는 것(자음)으로 구분해보자
  • n(sonoront)는 모음보단 아니지만 공명이 있다
  • waveform 에서 위아래로 진동이 크면 진하게 표시될 것이다
profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글