์ธ๊ฐ์ ์์ฐ์ด ์์ฑ์ ์ปดํจํฐ๊ฐ ๋ฃ๊ณ ์ดํดํ์ฌ ์ฃผ์ด์ง ์ํฉ์ ๋ง๊ฒ ์ ์ ํ ๋์ํ๋ ์์คํ
์์ฑ ๋ํ ์์คํ ์ ์ฐ๋ฆฌ๊ฐ ํํ ์๋ ์ ํ์ 'Siri', ์ผ์ฑ์ '๋น ์ค๋น'์ ๊ฐ์ด ์ฐ๋ฆฌ๊ฐ ํ๋ ๋ง์ ์์๋ฃ๊ณ ๋๋ต๊น์ง ํด์ฃผ๋ ์์คํ ์ด๋ค. ์์ฑ ๋ํ ์์คํ ์ ํฌ๊ฒ ์์ฑ ์ธ์, ์์ฐ์ด ์ฒ๋ฆฌ, ์์ฑ ํฉ์ฑ์ 3๋จ๊ณ๋ก ๋๋์ด์ง๋ค. ์ฌ๋์ ์์ฑ์ด ์ ๋ ฅ์ผ๋ก ๋ค์ด์ค๋ฉด ์์ฑ ์ธ์ ๊ณผ์ ์ ๊ฑฐ์ณ, ์์ฑ์ด ํ ์คํธ๋ก ๋ณํ์ด ๋๋ค. ์ด ๋ณํ๋ ํ ์คํธ๋ฅผ ์ปดํจํฐ๊ฐ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํตํด ๋ป์ ์ดํดํ๊ณ , ๊ทธ์ ๋ง๋ ๋๋ต์ ํ ์คํธ์ ํํ๋ก ๋ฐํํ๋ค. ๋ง์ง๋ง์ผ๋ก, ์ปดํจํฐ์์ ๋ง๋ ์ถ๋ ฅ ํ ์คํธ๋ฅผ ์์ฑ ํฉ์ฑ ๊ณผ์ ์ ํตํด ์์ฑ์ผ๋ก ๋ณํํด ์ค์ ๋ก ์ถ๋ ฅ์ ํ๊ฒ๋๋ค.
์ด์ ๊ฐ ๋จ๊ณ์ ๋ํด ์์ธํ ์์๋ณด์.
์ฌ๋์ด ๋งํ๋ ์์ฑ ์ธ์ด๋ฅผ ๊ธฐ๊ณ๊ฐ ๋ถ์ํ๋ ๊ธฐ์
๋ณดํต ์์ฑ(wav ํ์ผ)์ ํ ์คํธ(txtํ์ผ)๋ก ๋ณํ
์ฐ๋ฆฌ๊ฐ ํํ ์๊ฐํ๋ ์์ฑ ์ธ์์ "I have a cat" ์ด๋ผ๋ ๋ฌธ์ฅ์ ๋งํ์ ๋, ์ปดํจํฐ๊ฐ ๊ทธ๋๋ก "I have a cat"๊ณผ ๊ฐ์ด ๋ฌธ๋ฒ์ ๋ง๊ฒ ์ถ๋ ฅ์ ํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง, ์ค์ ๋ก ๋ฅ๋ฌ๋์ ํตํด ์์ฑ์ธ์์ ์งํํ๋ฉด "I hava cat"๊ณผ ๊ฐ์ด ๋ฌธ๋ฒ์ ๋ง์ง ์๋ ์ด์ํ ๋ฌธ์ฅ์ด ์ถ๋ ฅ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด๋ฐ ๊ฒฝ์ฐ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ํ์ฒ๋ฆฌ๋ฅผ ํด์ฃผ์ด์ผ ํ๋ฉฐ ๋ณดํต Language Model์ ์ด์ฉํ๋ค.
๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ํ ๋นํ๋ ๋ชจ๋ธ
Language Model์ ๊ฐ๋จํ ๋งํ๋ฉด ์ด๋ค ๋จ์ด๋ค์ ์ํ์ค๊ฐ ์ฃผ์ด์ก์ ๋ ๋จ์ด๋ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ์์ ์์๋ฅผ ์ด์ฉํด ์ค๋ช ํ์๋ฉด "I" ๋ค์ ๋์ค๋ ๋จ์ด์ธ "have"์ "hava" ์ค์์๋ "have"๊ฐ ๋์ฌ ํ๋ฅ ์ด ๋ ๋๊ณ , "a", "cat" ์ฌ์ด์์๋ cat์ด ๋ณต์๊ฐ ์๋๋ฏ๋ก "a"๊ฐ ๋์ฌ ํ๋ฅ ์ด ๋ ๋๋ค๋ ๊ฒ์ ์ ์ ์์ ๊ฒ์ด๋ค. ์ด๋ ์ฐ๋ฆฌ์ ๊ฒฝํ๊ณผ ์ง์์ ํตํด ์ ์ ์๋ ๊ฒ์ผ๋ก, Language Model๋ ๋๊ฐ์ด ์ฌ๋ฌ ์์ฑ๋ ๋ฌธ์ฅ์ ํ์ตํจ์ผ๋ก์จ ์ด๋ค ๋จ์ด์ ์ํ์ค๊ฐ ํ๋ฅ ์ด ๋ ๋์์ง ๊ณ์ฐํ ์ ์๋ค. ์ด ๊ณ์ฐํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ๋ฌธ๋ฒ์ด ๋ง์ง ์๊ฑฐ๋ ์ด์ํ ๋ฌธ์ฅ์ ์ ๋๋ก ๋ ๋ฌธ์ฅ์ผ๋ก ๋ฐ๊ฟ ์ ์๋ค. ์ฆ, ์ฐ๋ฆฌ๊ฐ ํํ ์๋ ์์ฑ ์ธ์์ ์์์ ์ค๋ช ํ ์์ฑ์ธ์์ Language Model์ ์ ์ฉํ ๊ฒฐ๊ณผ์ด๋ค.
๋ณธ๋ฌธ์์๋ Speech Recognition๊ณผ Speech-to-Text๋ฅผ ๊ตฌ๋ถํ์ง ์๊ณ ์ฌ์ฉํ์๋ค. ์ฌ๋ฌ ์๋ฃ์ ๋ฐ๋ฅด๋ฉด ์์ ์์์์ "I hava cat"๊ณผ ๊ฐ์ด ๋ฌธ๋ฒ์ ๋ง์ง ์๊ณ ๊ทธ์ ๋ค๋ฆฌ๋ ๋๋ก ์ฎ๊ธด ๊ฒ์ Speech-to-Text(STT)๋ผ๊ณ ํ๊ณ , Language Model๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ด์ฉํด "I have a cat"๊ณผ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฐํํ๋ ๊ฒ์ Speech Recognition์ด๋ผ๊ณ ํ๋ค๊ณ ํ๋ค. ํ์ง๋ง, ํ์ฌ๋ Speech Recognition๊ณผ STT์ ๋ป์ด ๋น์ทํ๊ฒ ์ฌ์ฉ๋๊ณ ์๋ ๊ฒ ๊ฐ์์ ๋ณธ๋ฌธ์์๋ ๊ตฌ๋ถํ์ง ์์๋ค.
๊ทธ๋ฌ๋ฉด ์ด๋ ๊ฒ ์ป์ text๋ฅผ ์ดํดํ๊ณ ๋ต๋ณ์ ํ๋ ค๋ฉด ๋ฌด์จ ๊ณผ์ ์ ๊ฑฐ์ณ์ผํ ๊น? ๋ฐ๋ก ์์ฐ์ด ์ฒ๋ฆฌ์ด๋ค. ์์ฐ์ด์ฒ๋ฆฌ๋ ์ฌ์ค ๊ด๋ฒ์ํ ๊ฐ๋
์ผ๋ก ์์ ์์ฑ์ธ์, ์ธ์ด ๋ชจ๋ธ์ ํฌํจํ๋ ๊ฐ๋
์ด๋ค.
์์ฐ์ด ์ฒ๋ฆฌ์ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ผ์์ํ์์ ์ฌ์ฉํ๋ ์ธ์ด(์์ฐ์ด)์ ์๋ฏธ๋ฅผ ๋ถ์ํด ์ปดํจํฐ๊ฐ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ๋ ์ผ
์ฆ, ์์ฐ์ด ์ฒ๋ฆฌ๋ ์์ฐ์ด๊ฐ ์ฌ์ฉ๋๋ ๋ถ์ผ๋ฅผ ํตํ์ด ์๊ธฐํ ์ ์๋๋ฐ ๊ทธ ์์๋ก ์์ฑ ์ธ์, ๋ฒ์ญ, ๋ด์ฉ ์์ฝ, ํ ์คํธ ๋ถ๋ฅ, ์ฑ๋ด ๋ฑ์ด ์๋ค. ์ฐ๋ฆฌ๊ฐ ํํ ๋งํ๋ ์์ฑ ๋ํ ์์คํ ์์ ์ฌ์ฉํ๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ ์ฑ๋ด๊ณผ ๋น์ทํ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์ ๋ ฅ ํ ์คํธ์ ์๋ฏธ๋ฅผ ๋ถ์ํด ๊ทธ์ ๋ง๋ ์ถ๋ ฅ(๋๋ต)์ ๋ฐํํ๋ ๊ฒ์ด ์ฑ๋ด์ผ๋ก, ์์ฐ์ด ์ฒ๋ฆฌ์ ๋ํด์๋ ํ์ ๋ ์ด์ผ๊ธฐ๋ฅผ ํ ๊ฒ์ด๋ค.
์ฌ๋์ ์๋ฆฌ์ ๋น์ทํ ์ํ๋ฅผ ๊ธฐ๊ณ๊ฐ ์๋์ผ๋ก ํฉ์ฑํ๋ ๊ธฐ์
์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํตํด์ ์ป์ ์ถ๋ ฅ์ ํ ์คํธ ํ์์ ๊ฐ์ง๋๋ฐ, ์ด๋ฅผ ๋ค์ ์์ฑ์ผ๋ก ๋ณํํด ์ฌ์ฉ์๋ค์๊ฒ ๋ณด๋ด๊ธฐ ์ํด ์์ฑ ํฉ์ฑ์ ์งํํ๋ค. ๋ชจ๋ธ๋ก ์ ์ ๋ ์ด๋ค ์ฌ๋์ ๋ง์ ๋ น์ํ๊ณ , ์์ฑ ๋จ์๋ก ๋ณํ์ ํ ๋ค์ ์ง์์ ๋ฐ๋ผ ํ์ํ ์์ฑ ๋จ์๋ฅผ ํฉ์ณ์ ์์ฑ์ ์ธ์๋ก ๋ง๋ค์ด๋ด๋ ๋ฐฉ์์ ์ด์ฉํ๋ค. ์ด๋ฐ ๊ณผ์ ์ ํตํด์ ๊ธฐ๊ณ์๊ฒ ๋ง์ ํ์ ๋, ๋๋ต์ ์ป์ ์ ์๋ค.
โ ๋ค์๊ธ๋ถํฐ๋ ์ค๋ ๋ฐฐ์ด Speech Recognition, Language Model ๋ฑ์ด ์ด๋ป๊ฒ ๊ตฌํ์ด ๋๋์ง ๋ ์์ธํ ์์๋ณผ ์์ ์ด๋ค.
ํ์ดํ !