Rule-Based approach
Stastistical approach
통계, Data Driven, Corpus based (경험적인 방법이고, 머신러닝 기반)
Deep Neural Network, deep learning (엔드 투 엔드 딥러닝)
인간은 언어 학습 후 완벽한 언어를 구사하나? (기계에게 줄 데이터의 문제)
튜링테스트?: 보이지 않는 방에 컴퓨터, 사람, 컴퓨터 & 사람을 넣고 실제 인간이 대화한 것이 사람인가 컴퓨터인가 테스트.
우리 주변의 AI는? Siri, Alexa, Bixby
AI의 현재는?
컴퓨터가 인간의 언어를 이해하고, 사람처럼 자연어를 말하고 쓰는 것이 최종 목표
몇가지 어려움이 존재.
상황에 대한 백그라운드를 가쳐줘야 하고 / 문법적으로 완벽하고 의미가 존재해도 이상할 수 있음 / 맥락에 의존하는 말들의 처리 문제. >> Common Knowledge! (오랜시간동안 정체성을 중심으로, 형태 및 구조의 변화, 경제성 반영)
학습 데이터 구축의 어려움 / 실시간 정보 반영X
Amguity 문제: Phonetic, Lexical Category, Semantics, Syntax/Structural
Entity Resolution 문제 (이름이 달라도 같은 사람인지 인식)
Anaphora resolution (= Refrential Ambiguity)
Coreference resolution (대명사만 가지고 같은 사람인지)
Diversity & Creativity (언어의 유연성)

소리 인식 > 전사, 단어 분석 > 문장구조분석 Parsing > 맥락의미를 파악 > 적용에 따른 reasoning
발화 계획 > 문법 > 단어 > 음성 합성
말소리와 관련된 두가지 학문.
관련된 분야를 보자!

Phonetics: 소리 그 자체, surface, physical 적인 측면을 다루고
Phonology: 소리의 가변적인 (그러나 규칙적인) 특성을 다룬다. 어떤 상항에서 왜 변하는지? 를 연구.
example)
물고기: ㅁ ㅜ ㄹ 로 쪼개고, 서로의 소리를 겹치도록 연결. Coarticulation(Phonology 의 영역)
바보: ㅂ ㅏ ㅂ ㅗ 로 쪼개고 앞 ㅂ(무성음)과 뒤 ㅂ(유성음)은 다름.
다리 vs. 달: 각 단어에서 ㄹ의 혀 위치가 다름.
Speech segmentation: contunuum > segmenting, pause, lexicon, intonation 고려.
Speech sound identification: 같은 화자에게서 나온 소리라도 각각이 다를 수 있음.

consonant sounds: 조음 방법, 위치, voicing 여부
vowel sounds: 혀의 위치, 앞/뒤, 말림(rounding), 강직도
Variations: pine, spine, stop
IPA

충격을 가하고 > 가장 가까운 입자가 하나 밀리고 > 입자와 입자 사이 Displacement

해당 모양을 90도 돌린 것이 Waveform 이다. 따라서 Waveform 이 크게 출렁인다는 것은 입자가 그만큼 많이 움직였다 돌아왔음을 뜻한다.
Simulated Air Particle Movement

Simple wave

단위 시간에 몇 번 주기가 반복되었는지는 >> frequency 결정.
높낮이 >> amplitude 소리의 크기 결정 (=energy)
따라서 공기입자의 움직임 + 시간 = waveform 이다.


대부분의 소리는 여러 소리의 복합으로 구성
Complex wave: one hormonic motion 보다 많이, multiple freq.

a), b)를 해당 시간 구간마다 JUST 더하면 새로운 조합 c) 주기가 있지만 다른 모양의 complex wave 가 만들어진다.
하나를 더 보자. 구성요소는 100, 200, 300으로 같은 재료이나 phase 가 다른 경우. 같은 재료를 넣었으나 재료를 얼마나 넣었는지에 따라 맛이 다르다. (여전히 음의 높이는 같다.)





가장 위에 솟아있는 것이 formant 이다.


시간이 표현되지 않았다!
따라서 x축을 시간, y축을 frequency, 특정 시간 구간에서 각 frequency 마다 amplitude 는 진하기로 표현하자. >> Spectogram!

