Multi-View Multi-Task Representation Learning for Mispronunciation Detection (2023)

J.ยท2025๋…„ 9์›” 23์ผ

Text & Speech Papers

๋ชฉ๋ก ๋ณด๊ธฐ
9/12
post-thumbnail

โœ” Basic Info

๐Ÿ“Œ Multi-View Multi-Task Representation Learning for Mispronunciation Detection (2023)
๐Ÿ”— https://arxiv.org/pdf/2306.01845

โ˜‘๏ธSum-up

  • Multi-View, Multi-Task ๊ฐœ๋…์„ ์ฒ˜์Œ ์•Œ๊ฒŒ ํ•ด์ค€ ๋…ผ๋ฌธ
  • ์Œ์„ฑ ๋…ผ๋ฌธ์ด์ง€๋งŒ, ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•ด ๊ฐœ์ธ์ ์œผ๋กœ ๋งŽ์ด ๋ฐฐ์šด ๋…ผ๋ฌธ
  • L2 ํ™”์ž (๋…ผ๋ฌธ์€ L1 ์„ ์˜์–ด๊ถŒ์œผ๋กœ ๋‘๊ธฐ ๋•Œ๋ฌธ์— ๋น„์˜์–ด๊ถŒ ์‚ฌ๋žŒ) ์˜ ๋‹ค์–‘ํ•œ ๋ฐœ์Œ ์˜ค๋ฅ˜๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด ์˜์–ด ์ธ์ฝ”๋”์™€ ๋‹ค๊ตญ์–ด ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ๋ณ‘๋ ฌ๋กœ ์‚ฌ์šฉํ•œ ํ›„ ์กฐ์Œ ํŠน์„ฑ ๋ถ„๋ฅ˜๋ฅผ ๋ณ‘๋ ฌ ํ•™์Šต์‹œ์ผœ ๋ฐœ์Œ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”
  • L1 ๊ธฐ๋ฐ˜ ์˜์–ด ์ธ์ฝ”๋” (wav2vec2 base) ๋กœ ์˜์–ด ๋ฐ์ดํ„ฐ ํ•™์Šต์‹œํ‚จ ํ›„ ์ •์ƒ ๋ฐœ์Œ์„ ๊ธฐ์ค€์œผ๋กœ ์ œ๊ณต (freeze)
  • L2 ๊ธฐ๋ฐ˜ ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋” (XLS-R53, wav2vec2 ๋ฅผ ํ™œ์šฉํ•œ ๊ตฌ์กฐ) ๋กœ L2 ํ™”์ž์˜ ์‹ค์ œ ๋ฐœ์Œ์„ ํ•™์Šตํ•˜๋ฉฐ ํ•™์Šต ์‹œ๊ฐ ์ œ๊ณต (fine-tune)

๋‘ ์ธ์ฝ”ํ„ฐ ์ถœ๋ ฅ์„ ๋ณ‘๋ ฌ๋กœ ๊ตฌ์กฐํ™”ํ•ด์„œ phoneme ์ธ์‹ ์„ฑ๋Šฅ๊ณผ ๋ฐœ์Œ ์˜ค๋ฅ˜ ๊ฐ์ง€๋ฅผ ๊ฐ•ํ™”ํ•œ๋‹ค.

โ˜‘๏ธGlossary

MDD

์ œ2 ์–ธ์–ด ํ•™์Šตํ•˜๋Š” ์‚ฌ๋žŒ์ด ์ž˜๋ชป ๋ฐœ์Œํ•œ ๋ถ€๋ถ„ ํƒ์ง€ ํ›„ โ†’ ๋ฐœ์Œ ์˜ค๋ฅ˜ ์ง„๋‹จ ๊ณผ์ •์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋Š” ์‹œ์Šคํ…œ์„ ๋งํ•จ

ex. Think ๋ฅผ Sink ๋กœ ๋ฐœ์Œ์„ ํ–ˆ๋‹ค๋ฉด ์šฐ์„  ์Œ์„ฑ์„ ์ธ์‹ํ•œ ํ›„

  1. ํƒ์ง€ : โ€œ๋ฐœ์Œ ์˜ค๋ฅ˜โ€
  2. ์ง„๋‹จ : โ€œ ์กฐ์Œ ์œ„์น˜ ์˜ค๋ฅ˜โ€

์ด์— ๋งž์ถฐ์„œ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต

Multi-View

๊ฐ™์€ ์Œ์„ฑ์„ ์ž…๋ ฅ๋ฐ›์•„๋„ ์„œ๋กœ ๋‹ค๋ฅธ ๋‘ ์ธ์ฝ”๋”(ํ˜น์€ ๊ทธ ์ด์ƒ)๋ฅผ ํ†ตํ•ด ๋ฐ›์•„๋“ค์—ฌ์„œ ์ƒํ˜ธ๋ณด์™„์  ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ณผ์ •์„ ๋งํ•จ. ์ฆ‰, A ๋ผ๋Š” ์Œ์„ฑ์„ ๋ฐ›์•„๋“ค์˜€์„ ๋•Œ ๋‘ ์ธ์ฝ”๋”์—์„œ ๊ฐ™์€ ์Œ์„ฑ์„ ์ฒ˜๋ฆฌํ•ด์„œ ๋ฐœ์Œ ํŠน์„ฑ์„ ๋” ํ’๋ถ€ํ•˜๊ฒŒ ํ•™์Šตํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋œปํ•จ

  • ๋‹จ์ผ์–ธ์–ด ์ธ์ฝ”๋” (monolingual) : ๊ธฐ์ค€ L1 ์˜์–ด ๋ฐœ์Œํ‘œํ˜„์œผ๋กœ ํ•™์Šต๋จ
  • ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋” (multilingual) :L2 ํ™”์ž ์–ต์–‘ ์•…์„ผํŠธ ์˜ค๋ฅ˜ ๋ฐ˜์˜ํ•˜๋„๋ก fine-tuning

Multi-Task

๋ง ๊ทธ๋Œ€๋กœ ๋ณด์กฐ ๊ณผ์ œ๋ฅผ ์ค˜์„œ ํ•™์Šต์‹œํ‚ค๋Š” ๋ชจ๋ธ. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” Multi-View ๋ฅผ MDD ๋ชจ๋ธ๊ณผ ๊ฒฐํ•ฉํ•ด์„œ ์Œ์†Œ ์‹œํ€€์Šค ์ธ์‹๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์กฐ์Œ ํŠน์„ฑ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ณด์กฐ ๊ณผ์ œ๊นŒ์ง€ ํ•™์Šตํ•œ๋‹ค๋Š” ๋œป

โœ…Abstract

ํ•™์Šต์ž์˜ ๋ชจ๊ตญ์–ด (L1) ์™€ ๋ชฉํ‘œ์–ด (L2) ๊ฐ„ ์Œ์šด ์ฐจ์ด๋Š” ๋ฐœ์Œ ์˜ค๋ฅ˜ ํƒ์ง€ ๋ฐ ์ง„๋‹จ ์‹œ์Šคํ…œ (MDD) ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ค‘์š”ํ•œ ๊ณผ์ œ์ž„. ์ด๊ฑธ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Multi-Task(๋ณด์กฐ ๊ณผ์ œ) ์‚ฌ์šฉํ•ด์„œ ๋™์ผ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ์‹œ๊ฐ (์—ฌ๊ธฐ์„œ๋Š” ๋‘๊ฐœ์˜ ์ธ์ฝ”๋”) ๋ฅผ ํ™œ์šฉํ•˜๊ณ  ์ €์ž์› ํ™˜๊ฒฝ์—์„œ ๋šœ๋ ทํ•œ ์Œ์†Œ ํ‘œํ˜„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์ƒˆ ์•„์นดํ…์ฒ˜ ์ œ์•ˆํ•จ.

  • ๋‹จ์ผ ์–ธ์–ด ์ธ์ฝ”๋” (mono-lingual) : ์˜์–ด๋งŒ์œผ๋กœ ํ•™์Šต์‹œํ‚จ ์ธ์ฝ”๋” (๊ธฐ์ค€์œผ๋กœ ์ž‘์šฉ)
  • ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋”(multi-lingual) : ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต์‹œํ‚จ ์ธ์ฝ”๋” (๋‹ค์–‘ํ•œ ์–ธ์–ด์™€ ์•…์„ผํŠธ ๊ฑธ์นœ ์Œํ–ฅ ํŠน์„ฑ ํฌ์ฐฉ)

์ด๋ ‡๊ฒŒ ๋‹จ์ผ์ด ์•„๋‹Œ Multi-View ๋กœ ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„์€ Multi-Task (๋‹ค์ค‘ ๊ณผ์ œ) ์„ค์ •์—์„œ ์กฐ์Œ ํŠน์„ฑ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ณด์กฐ๊ณผ์ œ ์ถ”๊ฐ€ํ•˜๋ฉด ๋”์šฑ ๊ฐ•ํ™”๋จ

Result

L2-ARCTIC ๋ฐ์ดํ„ฐ๋กœ ์‹คํ—˜๊ฒฐ๊ณผ ๋ชจ๋“  SOTA ๋ชจ๋ธ ๋Šฅ๊ฐ€ํ–ˆ์œผ๋ฉฐ ๊ธฐ์กด single-view, multi-view baseline ๋Œ€๋น„ ๊ฐ๊ฐ 11.13%, 8.60% PER (์Œ์†Œ ์˜ค๋ฅ˜์œจ) ๊ฐ์†Œ, 5.88%, 2.49% F1 Score ์ƒ์Šน์„ ๋ณด์ž„

โœ…Introduction

๋ฐœ์Œ ์˜ค๋ฅ˜ ์ธ์‹ ๋ฐ ํ”ผ๋“œ๋ฐฑ ์‹œ

๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก 
- ์ •๋ ฌ๋œ ASR ์ถœ๋ ฅ๊ณผ ๊ธฐ์ค€ ๋ฐœํ™” ๊ฐ„ ์ฐจ์ด ์ˆ˜๋™์œผ๋กœ ์ฐพ์•˜์Œ
- Think ๋ผ๊ณ  ๋งํ• ๋•Œ ASR ์ด /s ษช ล‹ k/ ๋ผ๊ณ  ์ธ์‹ํ–ˆ๋Š”๋ฐ ๋‹ต์ด /ฮธ ษช ล‹ k/ ์ด๋ฉด ์ฒ˜์Œ ์Œ์†Œ๊ฐ€ ์ž˜๋ชป ๋ฐœ์Œ๋์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Œ
- ASR ์˜ ๋กœ๊ทธ ์‚ฌํ›„ ํ™•๋ฅ  ํ™œ์šฉํ•ด์„œ ๋ฐœ์Œ ์ •ํ™•๋„ GOP ์ ์ˆ˜ ๊ณ„์‚ฐ

- ๋”ฅ๋Ÿฌ๋‹ ์‚ฌ์šฉ์‹œ end-to-end ๋ชจ๋ธ or ์‚ฌ์ „ ํ•™์Šต๋œ ASR ์—์„œ ์ถ”์ถœํ•œ GOP ํŠน์ง•์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„๋‹จํ˜• ํŒŒ์ดํ”„๋ผ์ธ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•จ (์—ฌ๋Ÿฌ ๋ชจ๋“ˆ์ด ๋‹จ๊ณ„์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜๋Š” ๊ตฌ์กฐ)
- ์‚ฌ์ „ ํ•™์Šต๋œ ASR ๋กœ ์Œ์„ฑโ†’ ์Œ์†Œ ์‹œํ€€์Šค ์ƒ์„ฑ
- GOP ์ ์ˆ˜(์ •ํ™•๋„ ์ˆ˜์น˜) ๊ณ„์‚ฐ
- ์ด๋•Œ ์ธก์ •๋œ ์ ์ˆ˜๋ฅผ MDD ๋ชจ๋ธ์— ๋„ฃ์–ด ์˜ค๋ฅ˜ ํŒ๋‹จ

์ตœ๊ทผ ๋ฐฉ๋ฒ•๋ก 

  • CTC loss ๋กœ ํ•™์Šต๋œ end-to-end ๋ชจ๋ธ์ด ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ โ†’ CTC loss ํŠน์„ฑ์ƒ ๊ฐ•์ œ ์ •๋ ฌ์ด ํ•„์š” ์—†์Œ(CTC๋Š” ์ •๋‹ต ์‹œํ€€์Šค๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ •๋ ฌ ๊ฒฝ๋กœ๋ฅผ ๊ณ ๋ คํ•ด์„œ loss๋ฅผ ๊ณ„์‚ฐํ•˜๋‹ˆ๊นŒ)
  • CTC ๋””์ฝ”๋”ฉ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ MDD ๋ฅผ ์œ„ํ•œ ์Œ์†Œ ์‹œํ€€์Šค ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ํšจ๊ณผ์  โ†’ ์ •๋‹ต ๋ผ๋ฒจ ์—†์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋Š” self-supervised learning ๋ณด๋‹ค ๋” ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ ๋ณด์ž„

๋ณธ ์—ฐ๊ตฌ

  • ์—ฌ๋Ÿฌ ์ธ์ฝ”๋”๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋‹ค์ค‘ ์‹œ๊ฐ ํ‘œํ˜„(multi-view)์„ MDD ๋ชจ๋ธ๊ณผ ๊ฒฐํ•ฉํ•ด ์Œ์†Œ ์‹œํ€€์Šค ์ธ์‹ + ์กฐ์€ ํŠน์„ฑ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ณด์กฐ ๊ณผ์ œ(multi-task)๊นŒ์ง€ ํ•™์Šตํ• ๊ฑฐ์ž„
  • ์ด๋Ÿฐ ์„œ๋ธŒ ๊ณผ์ œ์˜ ์กฐํ•ฉ์€ ์Œ์†Œ ํ‘œํ˜„์„ ํ–ฅ์ƒ์‹œํ‚ด โ€œunique viewโ€ ์ œ์‹œ

โœ…Proposed MDD Framework

์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ์‹œ๊ฐ (ํ‘œํ˜„) ๋ฐ›์•„๋“ค์ž„ โ†’ ์ด๋ฏธ์ง€์—์„œ ๋ณด๋“ฏ ์„œ๋กœ ๋‹ค๋ฅธ ์ธ์ฝ”๋” (XLS-R-53 (Cross Lingual Large Scale Speech Representation of 53 languages) 53๊ฐœ ์–ธ์–ด๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ์Œ์„ฑ ํ‘œํ˜„ ๋ชจ๋ธ์—๋‹ค๊ฐ€ L2 Arctic ๋ฐ์ดํ„ฐ๋กœ fine-tuning ๋œ๊ฑฐ + wav2vec2-base ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์˜์–ด์— ์‚ฌ์ „ํ•™์Šต ๋˜์–ด ์žˆ์Œ โ†’ ์˜์–ด ์Œ์„ฑ ํŠน์ง•์„ ์ž˜ ์ธ์‹ํ•˜๋„๋ก ํ•™์Šต๋œ ๋ชจ๋ธ) ๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํ‘œํ˜„๋“ค ์‚ฌ์šฉํ•จ.

๊ฐ™์€ ์Œ์„ฑ์„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ํ•ด์„ (๊ฐ€์ค‘์น˜๊ฐ€ ๋‹ค๋ฅด๊ฒ ์ฃ )

์ดํ›„ Multi-Task ์—์„œ PR ๋ชจ๋“ˆ(์Œ์†Œ ์ธ์‹ ๋ชจ๋“ˆ) ์—์„œ ์ฃผ ์Œ์†Œ ์ธ์‹ ํ›„ CTC loss ์‚ฌ์šฉ โ†’ auxiliary tasks (๋ณด์กฐ ํ…Œ์Šคํฌ) ์ง„ํ–‰.

์ผ๋‹จ ์ƒ˜ํ”Œ๊ธธ์ด n ์˜ ์›์‹œ ์ž…๋ ฅ ์‹ ํ˜ธ x1โ€ฆxn ์ด ์ฃผ์–ด์ง€๋ฉด multilingual ,monolingual encoder ๋กœ๋ถ€ํ„ฐ ๊ฐ๊ฐ ํ‘œํ˜„ ๋ฒกํ„ฐ ์ถ”์ถœํ•จ (1024 ์ฐจ์› ํŠน์ง• ๋ฒกํ„ฐ) โ†’ ์ฐจ์› ์ถ•์†Œ ๊ฐ๊ฐ 300 ์ฐจ์›์œผ๋กœ โ†’ concat ํ•ด์„œ (300,2) ์˜ ๋‹ค์ค‘์‹œ๊ฐํ‘œํ˜„์„ ์–ป๊ฒŒ ๋จ โ†’ ๊ฐ™์€ ์Œ์„ฑ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๊ด€์ (์–ธ์–ด์ , ์Œํ–ฅ์  ํŠน์„ฑ ๋“ฑ)์—์„œ ์ •๋ณด๋ฅผ ์ถ”์ถœ

** ์ฐธ๊ณ ๋กœ ์—ฌ๋Ÿฌ ์ธ์ฝ”๋” ๋ณ‘๋ ฌ ์‚ฌ์šฉํ•ด์„œ concat ํ•˜๋Š” ๋ฐฉ์‹์€ ์ž ์žฌ ํ‘œํ˜„ ํ•™์Šตํ•˜๋Š”๋ฐ ํšจ์œจ์  + ํ…์ŠคํŠธ ์Šคํ”ผ์น˜ +a ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์—์„œ ํŠธ๋ Œ๋“œ๋ผ ํ•จ

โ†’ ์ด๊ฑธ๋กœ CNN ํ†ต๊ณผ์‹œํ‚ด โ†’ feature map ์ถ”์ถœ โ†’ r ๊ฐœ์˜ ๋ณด์กฐ๊ณผ์ œ ์ถ”๊ฐ€ โ†’ ๋…ผ๋ฌธ์˜ ๊ฒฝ์šฐ ์กฐ์Œ ํŠน์„ฑ ๋ถ„๋ฅ˜

  • ์•ž์„  PR ๋ชจ๋“ˆ์—์„œ ๋‚˜์˜จ ์Œ์†Œ ์ž„๋ฒ ๋”ฉ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„์„œ ๊ฐ ๊ณผ์ œ๋ณ„ label ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅ.

  • ๊ฐ ๋ณด์กฐ๊ณผ์ œ๋„ ๊ฐ ๋ถ„๋ฅ˜๊ธฐ๋งˆ๋‹ค CTC loss ์‚ฌ์šฉ

  • ์ตœ์ข… ์†์‹คํ•จ์ˆ˜๋Š” ์•ž์„œ PR ์—์„œ ์“ด ์†์‹ค + ๋ณด์กฐ ํ…Œ์Šคํฌ๋•Œ ๊ฐ๊ฐ ์“ด ์†์‹ค ์กฐํ•ฉํ•ด์„œ ๊ตฌ์„ฑ

์ด๋•Œ ๋…ผ๋ฌธ์€ ํ›ˆ๋ จ ์ „๋žต์„ ๋‘๊ฐ€์ง€ ์ œ์•ˆํ•จ

  1. ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ชจ๋“  ์†์‹ค ํ•ฉ์ณ์„œ ํ•™์Šต
  2. ์ผ์ • ๊ฐ„๊ฒฉ์œผ๋กœ ๋ณด์กฐ๊ณผ์ œ๋ฅผ ์ˆœ์ฐจ ์ „ํ™˜ํ•˜๋Š” ์Šค์ผ€์ค„๋Ÿฌ ์‚ฌ์šฉ โ†’ ์ด๊ฑธ ์ถ”์ฒœํ•จ

๋ณด์กฐ ํ…Œ์Šคํฌ๋ฅผ ํ•˜๋‚˜์”ฉ ์ถ”๊ฐ€ํ•˜์—ฌ ํ•™์Šตํ•˜๋ฉฐ I step ๊ฐ„๊ฒฉ์œผ๋กœ ์ „ํ™˜๋˜์–ด ๋ชจ๋ธ์ด ๊ธฐ์กด์— ํ•™์Šตํ•œ ํ‘œํ˜„ ์œ„์— ์ƒˆ ํ‘œํ˜„ ์Œ“์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•จ.

ํŠน์ • ์Œํ–ฅ ํŠน์„ฑ์— ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š์œผ๋ฉด์„œ ์—ฌ๋Ÿฌ ๋ฐœ์Œ ํŠน์„ฑ ๊ณ ๋ฅด๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ

โœ…Experimental Setup

๋ฐ์ดํ„ฐ์…‹ : L2 ARCTIC

  • ๋น„์›์–ด๋ฏผ ์˜์–ด ๋ง๋ญ‰์น˜. ์Œ์„ฑ๋ณ€ํ™˜ ์–ต์–‘ ๋ณ€ํ™˜, ๋ฐœ์Œ ์˜ค๋ฅ˜ ํƒ์ง€ ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•ด ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹
  • ํžŒ๋””์–ด, ํ•œ๊ตญ์–ด, ์ŠคํŽ˜์ธ์–ด, ์•„๋ž์–ด, ๋ฒ ํŠธ๋‚จ์–ด ๋“ฑ์„ ๋ชจ๊ตญ์–ด๋กœ ํ•˜๋Š” ๋‚จ์„ฑ 12๋ช…, ์—ฌ์„ฑ 12๋ช… ๋ฐ์ดํ„ฐ
  • train, test, val 12, 6, 6 ๋ช…์œผ๋กœ ๋‚˜๋ˆ  ์‹คํ—˜

Encoder

  • monolingual encoder : wav2vec2 base (CNN + Transformer)
  • multilingual encoder : XLSR53 โ†’์‚ฌ์ „ํ•™์Šต๋œ wav2vec2 ๊ธฐ๋ฐ˜ ๋ชจ๋ธ, 53๊ฐœ ์–ธ์–ด, 56000์‹œ๊ฐ„ ๋ถ„๋Ÿ‰ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต (๊ตฌ์กฐ๋Š” wav2vec2 ๋ž‘ ๋™์ผ) CNN + Transformer ๊ตฌ์กฐ

๋ณด์กฐ ๊ณผ์ œ

4๊ฐ€์ง€ ์กฐ์Œ์  ํŠน์„ฑ ๋ถ„๋ฅ˜ํ•˜๋Š” multi-task ์ˆ˜ํ–‰

  • ์กฐ์Œ ์œ„์น˜ (place of articulation) - ๋ฐœ์Œ ์ƒ์„ฑ์ด ์–ด๋””์„œ ๋˜๋Š”๊ฐ€
  • ์กฐ์Œ ๋ฐฉ์‹ (manner of articulation) - ๋ฐœ์Œ ์ƒ์„ฑ ๋ฐฉ์‹
  • ๊ณ ์ €์Œ ์œ„์น˜ (high-low) ํ˜€์˜ ์ˆ˜์ง ์œ„์น˜
  • ์ „ํ›„ ์œ„์น˜ (front-back) ํ˜€์˜ ์•ž๋’ค ์œ„์น˜

๋ชจ๋ธ ํ•™์Šต + ํŒŒ๋ผ๋ฏธํ„ฐ

  • ์ธ์ฝ”๋”์™€ ํ…Œ์Šคํฌ ํ—ค๋“œ ํ•จ๊ป˜ ํ•™์Šตํ•จ. ๊ฐ ํ…Œ์Šคํฌ ํ—ค๋“œ ์†์‹ค๊ฐ’ (4๊ฐœ ๋”ฐ๋กœ๋”ฐ๋กœ ์†์‹ค๊ฐ’ ๊ตฌํ–ˆ์œผ๋‹ˆ๊นŒ) ํ‰๊ท ์œผ๋กœ ์ „์ฒด multi-task ์†์‹ค ์ตœ์ ํ™”ํ•ด์„œ ์—ญ์ „ํŒŒ ์ˆ˜ํ–‰
  • ์ฒ˜์Œ 2000 step ๋™์•ˆ์—๋Š” ์Œ์†Œ ์ธ์‹ (PR) ๋งŒ ์ˆ˜ํ–‰ํ•˜๊ณ  ์ดํ›„๋ถ€ํ„ฐ๋Š” ๊ฐ ๋ณด์กฐ ๊ณผ์ œ๋ฅผ ํ•˜๋‚˜์”ฉ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ multi-view ์„ค์ • ๋ฏธ์„ธ์กฐ์ •
  • ์ˆœ์„œ๋Š” PR (Phoneme Recognition) โ†’ PR + ์กฐ์Œ ๋ฐฉ์‹ โ†’ PR + ์กฐ์Œ์œ„์น˜ โ†’ PR + ๋†’๋‚ฎ์ด โ†’ PR + ์•ž๋’ค ์œ„์น˜
  • ์ตœ์  ๋ชจ๋ธ ์„ ํƒ์„ ์œ„ํ•ด PER ์‚ฌ์šฉ

โœ…Result & Discussion

์ง€ํ‘œ ๋ณด๋ฉด multi-view multi - task MDD ๊ฐ€ Single View (SV) ๋ณด๋‹ค ์„ฑ๋Šฅ ์šฐ์ˆ˜ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Œ
monolingual ๋‹จ์ผ ์ธ์ฝ”๋” ์‚ฌ์šฉ๋ณด๋‹ค 11.13%, multilingual ๋‹จ์ผ ์ธ์ฝ”๋” ์‚ฌ์šฉ๋•Œ๋ณด๋‹ค 8.67% PER ๊ฐ์†Œ

  • F1 ์€ ๊ฐ๊ฐ 5.88% 2.49% ์ฆ๊ฐ€
  • SV ๋ž‘ MV ๋น„๊ตํ–ˆ์„๋•Œ F1 ์€ monolingual ๋ž‘ ๋น„๊ตํ–ˆ์„ ๋•Œ๋Š” 1.01%, multilingual ๋ž‘ ๋น„๊ตํ–ˆ์„ ๋•Œ๋Š” 1.37% ์ฆ๊ฐ€
  • PER ์€ mono 3.96%, multi ๋ž‘ ๋น„๊ต์‹œ 1.5% ๊ฐ์†Œ

Single View (๋‹จ์ผ ์ธ์ฝ”๋”) ๋ณด๋‹ค Multi View(๋‹ค์ค‘ ์ธ์ฝ”๋”) ๊ฐ€ ๋” ์šฐ์ˆ˜ํ•จ

Multi-task ์˜ํ–ฅ์„ ๋ณด๋ฉด

SV ๊ธฐ์ค€์—์„œ๋Š” SV + AT(Auxiliary task, ๋ณด์กฐ ๊ณผ์ œ) ๊ฐ€ ๋” ๋‚˜์€๋ฐ MV ์ด๋ฉด MV + AT ๋ž‘ ๋น„์Šทํ•จ

์•ž์„œ ๋งํ•œ ์ผ๊ด„ ํ•™์Šต๊ณผ ์ˆœ์ฐจ ํ•™์Šต์˜ ๊ฒฝ์šฐ ๊ฐ€์žฅ ์„ฑ๋Šฅ ์ข‹์•˜๋˜ ์•„์นดํ…์ฒ˜์— ๋Œ€ํ•ด์„œ๋งŒ ์ผ๊ด„ ํ•™์Šต์ด๋ƒ ์ˆœ์ฐจํ•™์Šต์ด๋‚˜ ๋น„๊ตํ•ด๋ด„ : PER 1.48% ํ–ฅ์ƒ, F1 1.56% ํ–ฅ์ƒ

MVmulti + MVseq > MVmulti โ†’ MTall (์ˆœ์ฐจํ•™์Šต์ด ๋” ์šฐ์ˆ˜ํ–ˆ์Œ)

โœ…Conclusion

๋ณธ ์•„์นดํ…์ฒ˜ ํŠน์ง•

  1. ๋‹จ์ผ ์–ธ์–ด, ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋”๋กœ๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ํ‘œํ˜„ (view) ํ™œ์šฉ
  2. ๋ณด์กฐ ๊ณผ์ œ (multi-task) ํ†ตํ•ด์„œ ๋ฐœํ™”์˜ ๋‹ค์–‘ํ•œ ์†์„ฑ ํฌ์ฐฉ ๊ฐ€๋Šฅ
  3. ์ €์ž์› ํ™˜๊ฒฝ์—์„œ ์‹œ๊ฐ„์ ์œผ๋กœ, ์Œ์„ฑ์ ์œผ๋กœ ๊ตฌ๋ณ„๋˜๋Š” ํ‘œํ˜„ ํ•™์Šต ๊ฐ€๋Šฅ
  • ๋ณธ MDD ๋ชจ๋ธ์€ ์˜ค๋ฐœ์Œ ํƒ์ง€, ์Œ์†Œ ์ธ์‹ ๋ชจ๋‘ ๋ณด์กฐ ๋ฐ์ดํ„ฐ ์—†์ด ๋‹จ์ผ view ๋ชจ๋ธ ๋Šฅ๊ฐ€
  • ์ด๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ ์‹ ํ˜ธ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์—์„œ (์ฆ‰ ์—ฌ๊ธฐ์„  ์ธ์ฝ”๋” ๋‘๊ฐœ ์“ด๊ฑฐ ๋งํ•˜๋Š”๊ฑฐ๊ฒ ์ฃ !) ํ•™์Šตํ•˜๋ฉด ์ œํ•œ๋œ ์ž์› ๋‚ด์—์„œ๋„ L1, L2 ์Œ์šด ํ‘œํ˜„ ์ค‘ ๊ตฌ๋ณ„ ๋ฐ ๊ณตํ†ต ํŒจํ„ด ํŒŒ์•… ๊ฐ€๋Šฅํ•จ์„ ์‹œ์‚ฌ
  • ํ–ฅํ›„ ์–ต์–‘ ๋“ฑ ์ดˆ๋ถ„์ ˆ ์˜ค๋ฅ˜ ํƒ์ง€ํ•˜๊ธฐ ์œ„ํ•ด๋„ ์ด๋Ÿฐ multi-view ๋ชจ๋ธ ํ™œ์šฉ ์ž˜ ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ.
profile
AI & Languages galore.

0๊ฐœ์˜ ๋Œ“๊ธ€