💬 음성 대화 시스템이란?

혜원·2021년 7월 29일

✔ 음성 대화 시스템

인간의 자연어 음성을 컴퓨터가 듣고 이해하여 주어진 상황에 맞게 적절히 대응하는 시스템

음성 대화 시스템은 우리가 흔히 아는 애플의 'Siri', 삼성의 '빅스비'와 같이 우리가 하는 말을 알아듣고 대답까지 해주는 시스템이다. 음성 대화 시스템은 크게 음성 인식, 자연어 처리, 음성 합성의 3단계로 나뉘어진다. 사람의 음성이 입력으로 들어오면 음성 인식 과정을 거쳐, 음성이 텍스트로 변환이 된다. 이 변환된 텍스트를 컴퓨터가 자연어 처리를 통해 뜻을 이해하고, 그에 맞는 대답을 텍스트의 형태로 반환한다. 마지막으로, 컴퓨터에서 만든 출력 텍스트를 음성 합성 과정을 통해 음성으로 변환해 실제로 출력을 하게된다.

이제 각 단계에 대해 자세히 알아보자.

✔ 음성 인식 (Speech Recognition)

사람이 말하는 음성 언어를 기계가 분석하는 기술
보통 음성(wav 파일)을 텍스트(txt파일)로 변환

우리가 흔히 생각하는 음성 인식은 "I have a cat" 이라는 문장을 말했을 때, 컴퓨터가 그대로 "I have a cat"과 같이 문법에 맞게 출력을 하는 것이다. 하지만, 실제로 딥러닝을 통해 음성인식을 진행하면 "I hava cat"과 같이 문법에 맞지 않는 이상한 문장이 출력되는 경우가 많다. 이런 경우 원하는 결과를 얻기 위해 후처리를 해주어야 하며 보통 Language Model을 이용한다.

✔ 언어 모델 (Language Model)

단어 시퀀스에 확률을 할당하는 모델

Language Model은 간단히 말하면 어떤 단어들의 시퀀스가 주어졌을 때 단어들의 확률 분포를 계산하는 것이다. 앞의 예시를 이용해 설명하자면 "I" 뒤에 나오는 단어인 "have"와 "hava" 중에서는 "have"가 나올 확률이 더 높고, "a", "cat" 사이에서는 cat이 복수가 아니므로 "a"가 나올 확률이 더 높다는 것을 알 수 있을 것이다. 이는 우리의 경험과 지식을 통해 알 수 있는 것으로, Language Model도 똑같이 여러 완성된 문장을 학습함으로써 어떤 단어의 시퀀스가 확률이 더 높은지 계산할 수 있다. 이 계산한 결과를 통해 우리는 문법이 맞지 않거나 어색한 문장을 제대로 된 문장으로 바꿀 수 있다. 즉, 우리가 흔히 아는 음성 인식은 앞에서 설명한 음성인식에 Language Model을 적용한 결과이다.

❗ Speech Recognition & Speech-to-Text ❗

본문에서는 Speech Recognition과 Speech-to-Text를 구분하지 않고 사용하였다. 여러 자료에 따르면 위의 예시에서 "I hava cat"과 같이 문법에 맞지 않고 그저 들리는 대로 옮긴 것을 Speech-to-Text(STT)라고 하고, Language Model과 같은 방법을 이용해 "I have a cat"과 같은 문장을 반환하는 것을 Speech Recognition이라고 한다고 한다. 하지만, 현재는 Speech Recognition과 STT의 뜻이 비슷하게 사용되고 있는 것 같아서 본문에서는 구분하지 않았다.

✔ 자연어 처리 (Natural Language Processing)

그러면 이렇게 얻은 text를 이해하고 답변을 하려면 무슨 과정을 거쳐야할까? 바로 자연어 처리이다. 자연어처리는 사실 광범위한 개념으로 앞의 음성인식, 언어 모델을 포함하는 개념이다.
자연어 처리의 의미는 다음과 같다.

일상생활에서 사용하는 언어(자연어)의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일

즉, 자연어 처리는 자연어가 사용되는 분야를 통틀어 얘기할 수 있는데 그 예시로 음성 인식, 번역, 내용 요약, 텍스트 분류, 챗봇 등이 있다. 우리가 흔히 말하는 음성 대화 시스템에서 사용하는 자연어 처리는 챗봇과 비슷하다고 생각하면 된다. 입력 텍스트의 의미를 분석해 그에 맞는 출력(대답)을 반환하는 것이 챗봇으로, 자연어 처리에 대해서는 후에 더 이야기를 할 것이다.

✔ 음성 합성 (Speech Synthesis)

사람의 소리와 비슷한 음파를 기계가 자동으로 합성하는 기술

자연어 처리를 통해서 얻은 출력은 텍스트 형식을 가지는데, 이를 다시 음성으로 변환해 사용자들에게 보내기 위해 음성 합성을 진행한다. 모델로 선정된 어떤 사람의 말을 녹음하고, 음성 단위로 변환을 한 다음 지시에 따라 필요한 음성 단위를 합쳐서 음성을 인위로 만들어내는 방식을 이용한다. 이런 과정을 통해서 기계에게 말을 했을 때, 대답을 얻을 수 있다.

👩🏻‍🏫 정리

음성 대화 시스템의 구조 : 음성 인식 -> 자연어 처리(챗봇) -> 음성 합성
음성 인식 : 들리는 대로 받아쓰기 + 후처리하기(Language Model)
자연어 처리 : 자연어를 분석해 컴퓨터가 처리할 수 있도록 하는 일 (음성 인식 포함)
음성 합성 : 녹음을 통해 얻은 음성단위를 합쳐 텍스트에서 음성으로 변환

❗ 다음글부터는 오늘 배운 Speech Recognition, Language Model 등이 어떻게 구현이 되는지 더 자세히 알아볼 예정이다.

혜원

딥러닝 공부중인 대학생입니다!

이전 포스트

인생 첫 블로그 그리고 나의 꿈 😄

다음 포스트

[LM] 한국어 Tokenizer (Python)

1개의 댓글

이한나

2021년 8월 1일

화이팅 !

답글 달기