๐Ÿ’ฌ ์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ์ด๋ž€?

ํ˜œ์›ยท2021๋…„ 7์›” 29์ผ
3
post-thumbnail

โœ” ์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ

์ธ๊ฐ„์˜ ์ž์—ฐ์–ด ์Œ์„ฑ์„ ์ปดํ“จํ„ฐ๊ฐ€ ๋“ฃ๊ณ  ์ดํ•ดํ•˜์—ฌ ์ฃผ์–ด์ง„ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์ ์ ˆํžˆ ๋Œ€์‘ํ•˜๋Š” ์‹œ์Šคํ…œ

์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ์€ ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ์•„๋Š” ์• ํ”Œ์˜ 'Siri', ์‚ผ์„ฑ์˜ '๋น…์Šค๋น„'์™€ ๊ฐ™์ด ์šฐ๋ฆฌ๊ฐ€ ํ•˜๋Š” ๋ง์„ ์•Œ์•„๋“ฃ๊ณ  ๋Œ€๋‹ต๊นŒ์ง€ ํ•ด์ฃผ๋Š” ์‹œ์Šคํ…œ์ด๋‹ค. ์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์Œ์„ฑ ์ธ์‹, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์Œ์„ฑ ํ•ฉ์„ฑ์˜ 3๋‹จ๊ณ„๋กœ ๋‚˜๋‰˜์–ด์ง„๋‹ค. ์‚ฌ๋žŒ์˜ ์Œ์„ฑ์ด ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜ค๋ฉด ์Œ์„ฑ ์ธ์‹ ๊ณผ์ •์„ ๊ฑฐ์ณ, ์Œ์„ฑ์ด ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜์ด ๋œ๋‹ค. ์ด ๋ณ€ํ™˜๋œ ํ…์ŠคํŠธ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ๋œป์„ ์ดํ•ดํ•˜๊ณ , ๊ทธ์— ๋งž๋Š” ๋Œ€๋‹ต์„ ํ…์ŠคํŠธ์˜ ํ˜•ํƒœ๋กœ ๋ฐ˜ํ™˜ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ปดํ“จํ„ฐ์—์„œ ๋งŒ๋“  ์ถœ๋ ฅ ํ…์ŠคํŠธ๋ฅผ ์Œ์„ฑ ํ•ฉ์„ฑ ๊ณผ์ •์„ ํ†ตํ•ด ์Œ์„ฑ์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์‹ค์ œ๋กœ ์ถœ๋ ฅ์„ ํ•˜๊ฒŒ๋œ๋‹ค.

์ด์ œ ๊ฐ ๋‹จ๊ณ„์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.

โœ” ์Œ์„ฑ ์ธ์‹ (Speech Recognition)

์‚ฌ๋žŒ์ด ๋งํ•˜๋Š” ์Œ์„ฑ ์–ธ์–ด๋ฅผ ๊ธฐ๊ณ„๊ฐ€ ๋ถ„์„ํ•˜๋Š” ๊ธฐ์ˆ 
๋ณดํ†ต ์Œ์„ฑ(wav ํŒŒ์ผ)์„ ํ…์ŠคํŠธ(txtํŒŒ์ผ)๋กœ ๋ณ€ํ™˜

์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ์ƒ๊ฐํ•˜๋Š” ์Œ์„ฑ ์ธ์‹์€ "I have a cat" ์ด๋ผ๋Š” ๋ฌธ์žฅ์„ ๋งํ–ˆ์„ ๋•Œ, ์ปดํ“จํ„ฐ๊ฐ€ ๊ทธ๋Œ€๋กœ "I have a cat"๊ณผ ๊ฐ™์ด ๋ฌธ๋ฒ•์— ๋งž๊ฒŒ ์ถœ๋ ฅ์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ ๋”ฅ๋Ÿฌ๋‹์„ ํ†ตํ•ด ์Œ์„ฑ์ธ์‹์„ ์ง„ํ–‰ํ•˜๋ฉด "I hava cat"๊ณผ ๊ฐ™์ด ๋ฌธ๋ฒ•์— ๋งž์ง€ ์•Š๋Š” ์ด์ƒํ•œ ๋ฌธ์žฅ์ด ์ถœ๋ ฅ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ›„์ฒ˜๋ฆฌ๋ฅผ ํ•ด์ฃผ์–ด์•ผ ํ•˜๋ฉฐ ๋ณดํ†ต Language Model์„ ์ด์šฉํ•œ๋‹ค.

โœ” ์–ธ์–ด ๋ชจ๋ธ (Language Model)

๋‹จ์–ด ์‹œํ€€์Šค์— ํ™•๋ฅ ์„ ํ• ๋‹นํ•˜๋Š” ๋ชจ๋ธ

Language Model์€ ๊ฐ„๋‹จํžˆ ๋งํ•˜๋ฉด ์–ด๋–ค ๋‹จ์–ด๋“ค์˜ ์‹œํ€€์Šค๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์•ž์˜ ์˜ˆ์‹œ๋ฅผ ์ด์šฉํ•ด ์„ค๋ช…ํ•˜์ž๋ฉด "I" ๋’ค์— ๋‚˜์˜ค๋Š” ๋‹จ์–ด์ธ "have"์™€ "hava" ์ค‘์—์„œ๋Š” "have"๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ๋” ๋†’๊ณ , "a", "cat" ์‚ฌ์ด์—์„œ๋Š” cat์ด ๋ณต์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ฏ€๋กœ "a"๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ๋” ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ์˜ ๊ฒฝํ—˜๊ณผ ์ง€์‹์„ ํ†ตํ•ด ์•Œ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์œผ๋กœ, Language Model๋„ ๋˜‘๊ฐ™์ด ์—ฌ๋Ÿฌ ์™„์„ฑ๋œ ๋ฌธ์žฅ์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ์–ด๋–ค ๋‹จ์–ด์˜ ์‹œํ€€์Šค๊ฐ€ ํ™•๋ฅ ์ด ๋” ๋†’์€์ง€ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ณ„์‚ฐํ•œ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ์šฐ๋ฆฌ๋Š” ๋ฌธ๋ฒ•์ด ๋งž์ง€ ์•Š๊ฑฐ๋‚˜ ์–ด์ƒ‰ํ•œ ๋ฌธ์žฅ์„ ์ œ๋Œ€๋กœ ๋œ ๋ฌธ์žฅ์œผ๋กœ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ์•„๋Š” ์Œ์„ฑ ์ธ์‹์€ ์•ž์—์„œ ์„ค๋ช…ํ•œ ์Œ์„ฑ์ธ์‹์— Language Model์„ ์ ์šฉํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.

โ— Speech Recognition & Speech-to-Text โ—

๋ณธ๋ฌธ์—์„œ๋Š” Speech Recognition๊ณผ Speech-to-Text๋ฅผ ๊ตฌ๋ถ„ํ•˜์ง€ ์•Š๊ณ  ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์—ฌ๋Ÿฌ ์ž๋ฃŒ์— ๋”ฐ๋ฅด๋ฉด ์œ„์˜ ์˜ˆ์‹œ์—์„œ "I hava cat"๊ณผ ๊ฐ™์ด ๋ฌธ๋ฒ•์— ๋งž์ง€ ์•Š๊ณ  ๊ทธ์ € ๋“ค๋ฆฌ๋Š” ๋Œ€๋กœ ์˜ฎ๊ธด ๊ฒƒ์„ Speech-to-Text(STT)๋ผ๊ณ  ํ•˜๊ณ , Language Model๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•ด "I have a cat"๊ณผ ๊ฐ™์€ ๋ฌธ์žฅ์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ๊ฒƒ์„ Speech Recognition์ด๋ผ๊ณ  ํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ํ•˜์ง€๋งŒ, ํ˜„์žฌ๋Š” Speech Recognition๊ณผ STT์˜ ๋œป์ด ๋น„์Šทํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฐ™์•„์„œ ๋ณธ๋ฌธ์—์„œ๋Š” ๊ตฌ๋ถ„ํ•˜์ง€ ์•Š์•˜๋‹ค.

โœ” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (Natural Language Processing)

๊ทธ๋Ÿฌ๋ฉด ์ด๋ ‡๊ฒŒ ์–ป์€ text๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋‹ต๋ณ€์„ ํ•˜๋ ค๋ฉด ๋ฌด์Šจ ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผํ• ๊นŒ? ๋ฐ”๋กœ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์ด๋‹ค. ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๋Š” ์‚ฌ์‹ค ๊ด‘๋ฒ”์œ„ํ•œ ๊ฐœ๋…์œผ๋กœ ์•ž์˜ ์Œ์„ฑ์ธ์‹, ์–ธ์–ด ๋ชจ๋ธ์„ ํฌํ•จํ•˜๋Š” ๊ฐœ๋…์ด๋‹ค.
์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์˜ ์˜๋ฏธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ผ์ƒ์ƒํ™œ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์–ธ์–ด(์ž์—ฐ์–ด)์˜ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ผ

์ฆ‰, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋Š” ์ž์—ฐ์–ด๊ฐ€ ์‚ฌ์šฉ๋˜๋Š” ๋ถ„์•ผ๋ฅผ ํ†ตํ‹€์–ด ์–˜๊ธฐํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ๊ทธ ์˜ˆ์‹œ๋กœ ์Œ์„ฑ ์ธ์‹, ๋ฒˆ์—ญ, ๋‚ด์šฉ ์š”์•ฝ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ์ฑ—๋ด‡ ๋“ฑ์ด ์žˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ๋งํ•˜๋Š” ์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋Š” ์ฑ—๋ด‡๊ณผ ๋น„์Šทํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค. ์ž…๋ ฅ ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•ด ๊ทธ์— ๋งž๋Š” ์ถœ๋ ฅ(๋Œ€๋‹ต)์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ๊ฒƒ์ด ์ฑ—๋ด‡์œผ๋กœ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์— ๋Œ€ํ•ด์„œ๋Š” ํ›„์— ๋” ์ด์•ผ๊ธฐ๋ฅผ ํ•  ๊ฒƒ์ด๋‹ค.

โœ” ์Œ์„ฑ ํ•ฉ์„ฑ (Speech Synthesis)

์‚ฌ๋žŒ์˜ ์†Œ๋ฆฌ์™€ ๋น„์Šทํ•œ ์ŒํŒŒ๋ฅผ ๊ธฐ๊ณ„๊ฐ€ ์ž๋™์œผ๋กœ ํ•ฉ์„ฑํ•˜๋Š” ๊ธฐ์ˆ 

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด์„œ ์–ป์€ ์ถœ๋ ฅ์€ ํ…์ŠคํŠธ ํ˜•์‹์„ ๊ฐ€์ง€๋Š”๋ฐ, ์ด๋ฅผ ๋‹ค์‹œ ์Œ์„ฑ์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์‚ฌ์šฉ์ž๋“ค์—๊ฒŒ ๋ณด๋‚ด๊ธฐ ์œ„ํ•ด ์Œ์„ฑ ํ•ฉ์„ฑ์„ ์ง„ํ–‰ํ•œ๋‹ค. ๋ชจ๋ธ๋กœ ์„ ์ •๋œ ์–ด๋–ค ์‚ฌ๋žŒ์˜ ๋ง์„ ๋…น์Œํ•˜๊ณ , ์Œ์„ฑ ๋‹จ์œ„๋กœ ๋ณ€ํ™˜์„ ํ•œ ๋‹ค์Œ ์ง€์‹œ์— ๋”ฐ๋ผ ํ•„์š”ํ•œ ์Œ์„ฑ ๋‹จ์œ„๋ฅผ ํ•ฉ์ณ์„œ ์Œ์„ฑ์„ ์ธ์œ„๋กœ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐฉ์‹์„ ์ด์šฉํ•œ๋‹ค. ์ด๋Ÿฐ ๊ณผ์ •์„ ํ†ตํ•ด์„œ ๊ธฐ๊ณ„์—๊ฒŒ ๋ง์„ ํ–ˆ์„ ๋•Œ, ๋Œ€๋‹ต์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ‘ฉ๐Ÿปโ€๐Ÿซ ์ •๋ฆฌ

  • ์Œ์„ฑ ๋Œ€ํ™” ์‹œ์Šคํ…œ์˜ ๊ตฌ์กฐ : ์Œ์„ฑ ์ธ์‹ -> ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(์ฑ—๋ด‡) -> ์Œ์„ฑ ํ•ฉ์„ฑ
  • ์Œ์„ฑ ์ธ์‹ : ๋“ค๋ฆฌ๋Š” ๋Œ€๋กœ ๋ฐ›์•„์“ฐ๊ธฐ + ํ›„์ฒ˜๋ฆฌํ•˜๊ธฐ(Language Model)
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ : ์ž์—ฐ์–ด๋ฅผ ๋ถ„์„ํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ผ (์Œ์„ฑ ์ธ์‹ ํฌํ•จ)
  • ์Œ์„ฑ ํ•ฉ์„ฑ : ๋…น์Œ์„ ํ†ตํ•ด ์–ป์€ ์Œ์„ฑ๋‹จ์œ„๋ฅผ ํ•ฉ์ณ ํ…์ŠคํŠธ์—์„œ ์Œ์„ฑ์œผ๋กœ ๋ณ€ํ™˜

โ— ๋‹ค์Œ๊ธ€๋ถ€ํ„ฐ๋Š” ์˜ค๋Š˜ ๋ฐฐ์šด Speech Recognition, Language Model ๋“ฑ์ด ์–ด๋–ป๊ฒŒ ๊ตฌํ˜„์ด ๋˜๋Š”์ง€ ๋” ์ž์„ธํžˆ ์•Œ์•„๋ณผ ์˜ˆ์ •์ด๋‹ค.

profile
๋”ฅ๋Ÿฌ๋‹ ๊ณต๋ถ€์ค‘์ธ ๋Œ€ํ•™์ƒ์ž…๋‹ˆ๋‹ค!

1๊ฐœ์˜ ๋Œ“๊ธ€

comment-user-thumbnail
2021๋…„ 8์›” 1์ผ

ํ™”์ดํŒ… !

๋‹ต๊ธ€ ๋‹ฌ๊ธฐ