
โ Basic Info
๐ Multi-View Multi-Task Representation Learning for Mispronunciation Detection (2023)
๐ https://arxiv.org/pdf/2306.01845
๋ ์ธ์ฝํฐ ์ถ๋ ฅ์ ๋ณ๋ ฌ๋ก ๊ตฌ์กฐํํด์ phoneme ์ธ์ ์ฑ๋ฅ๊ณผ ๋ฐ์ ์ค๋ฅ ๊ฐ์ง๋ฅผ ๊ฐํํ๋ค.
์ 2 ์ธ์ด ํ์ตํ๋ ์ฌ๋์ด ์๋ชป ๋ฐ์ํ ๋ถ๋ถ ํ์ง ํ โ ๋ฐ์ ์ค๋ฅ ์ง๋จ ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ์์คํ ์ ๋งํจ
ex. Think ๋ฅผ Sink ๋ก ๋ฐ์์ ํ๋ค๋ฉด ์ฐ์ ์์ฑ์ ์ธ์ํ ํ
์ด์ ๋ง์ถฐ์ ํผ๋๋ฐฑ ์ ๊ณต
๊ฐ์ ์์ฑ์ ์ ๋ ฅ๋ฐ์๋ ์๋ก ๋ค๋ฅธ ๋ ์ธ์ฝ๋(ํน์ ๊ทธ ์ด์)๋ฅผ ํตํด ๋ฐ์๋ค์ฌ์ ์ํธ๋ณด์์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ ๋งํจ. ์ฆ, A ๋ผ๋ ์์ฑ์ ๋ฐ์๋ค์์ ๋ ๋ ์ธ์ฝ๋์์ ๊ฐ์ ์์ฑ์ ์ฒ๋ฆฌํด์ ๋ฐ์ ํน์ฑ์ ๋ ํ๋ถํ๊ฒ ํ์ตํ๋ ๊ตฌ์กฐ๋ฅผ ๋ปํจ
๋ง ๊ทธ๋๋ก ๋ณด์กฐ ๊ณผ์ ๋ฅผ ์ค์ ํ์ต์ํค๋ ๋ชจ๋ธ. ์ด ๋ ผ๋ฌธ์์๋ Multi-View ๋ฅผ MDD ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํด์ ์์ ์ํ์ค ์ธ์๋ฟ๋ง ์๋๋ผ ์กฐ์ ํน์ฑ์ ๋ถ๋ฅํ๋ ๋ณด์กฐ ๊ณผ์ ๊น์ง ํ์ตํ๋ค๋ ๋ป
ํ์ต์์ ๋ชจ๊ตญ์ด (L1) ์ ๋ชฉํ์ด (L2) ๊ฐ ์์ด ์ฐจ์ด๋ ๋ฐ์ ์ค๋ฅ ํ์ง ๋ฐ ์ง๋จ ์์คํ (MDD) ๋ฌธ์ ํด๊ฒฐ์ ์ค์ํ ๊ณผ์ ์. ์ด๊ฑธ ํด๊ฒฐํ๊ธฐ ์ํด Multi-Task(๋ณด์กฐ ๊ณผ์ ) ์ฌ์ฉํด์ ๋์ผ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ์ฌ๋ฌ ์๊ฐ (์ฌ๊ธฐ์๋ ๋๊ฐ์ ์ธ์ฝ๋) ๋ฅผ ํ์ฉํ๊ณ ์ ์์ ํ๊ฒฝ์์ ๋๋ ทํ ์์ ํํ ํ์ตํ๊ธฐ ์ํด ์ ์์นดํ ์ฒ ์ ์ํจ.
์ด๋ ๊ฒ ๋จ์ผ์ด ์๋ Multi-View ๋ก ์ธ์ฝ๋ฉ๋ ํํ์ Multi-Task (๋ค์ค ๊ณผ์ ) ์ค์ ์์ ์กฐ์ ํน์ฑ์ ๋ถ๋ฅํ๋ ๋ณด์กฐ๊ณผ์ ์ถ๊ฐํ๋ฉด ๋์ฑ ๊ฐํ๋จ
L2-ARCTIC ๋ฐ์ดํฐ๋ก ์คํ๊ฒฐ๊ณผ ๋ชจ๋ SOTA ๋ชจ๋ธ ๋ฅ๊ฐํ์ผ๋ฉฐ ๊ธฐ์กด single-view, multi-view baseline ๋๋น ๊ฐ๊ฐ 11.13%, 8.60% PER (์์ ์ค๋ฅ์จ) ๊ฐ์, 5.88%, 2.49% F1 Score ์์น์ ๋ณด์
๋ฐ์ ์ค๋ฅ ์ธ์ ๋ฐ ํผ๋๋ฐฑ ์
๊ธฐ์กด ๋ฐฉ๋ฒ๋ก
- ์ ๋ ฌ๋ ASR ์ถ๋ ฅ๊ณผ ๊ธฐ์ค ๋ฐํ ๊ฐ ์ฐจ์ด ์๋์ผ๋ก ์ฐพ์์
- Think ๋ผ๊ณ ๋งํ ๋ ASR ์ด /s ษช ล k/ ๋ผ๊ณ ์ธ์ํ๋๋ฐ ๋ต์ด /ฮธ ษช ล k/ ์ด๋ฉด ์ฒ์ ์์๊ฐ ์๋ชป ๋ฐ์๋์์ ์ ์ ์์
- ASR ์ ๋ก๊ทธ ์ฌํ ํ๋ฅ ํ์ฉํด์ ๋ฐ์ ์ ํ๋ GOP ์ ์ ๊ณ์ฐ

- ๋ฅ๋ฌ๋ ์ฌ์ฉ์ end-to-end ๋ชจ๋ธ or ์ฌ์ ํ์ต๋ ASR ์์ ์ถ์ถํ GOP ํน์ง์ผ๋ก ๊ตฌ์ฑ๋ ๊ณ๋จํ ํ์ดํ๋ผ์ธ ์ฌ์ฉํ๊ธฐ๋ ํจ (์ฌ๋ฌ ๋ชจ๋์ด ๋จ๊ณ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ ๊ตฌ์กฐ)
- ์ฌ์ ํ์ต๋ ASR ๋ก ์์ฑโ ์์ ์ํ์ค ์์ฑ
- GOP ์ ์(์ ํ๋ ์์น) ๊ณ์ฐ
- ์ด๋ ์ธก์ ๋ ์ ์๋ฅผ MDD ๋ชจ๋ธ์ ๋ฃ์ด ์ค๋ฅ ํ๋จ
์ต๊ทผ ๋ฐฉ๋ฒ๋ก
๋ณธ ์ฐ๊ตฌ
์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํ ์ฌ๋ฌ ์๊ฐ (ํํ) ๋ฐ์๋ค์ โ ์ด๋ฏธ์ง์์ ๋ณด๋ฏ ์๋ก ๋ค๋ฅธ ์ธ์ฝ๋ (XLS-R-53 (Cross Lingual Large Scale Speech Representation of 53 languages) 53๊ฐ ์ธ์ด๋ก ์ฌ์ ํ์ต๋ ๋๊ท๋ชจ ๋ค๊ตญ์ด ์์ฑ ํํ ๋ชจ๋ธ์๋ค๊ฐ L2 Arctic ๋ฐ์ดํฐ๋ก fine-tuning ๋๊ฑฐ + wav2vec2-base ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์์ด์ ์ฌ์ ํ์ต ๋์ด ์์ โ ์์ด ์์ฑ ํน์ง์ ์ ์ธ์ํ๋๋ก ํ์ต๋ ๋ชจ๋ธ) ๋ฅผ ํตํด ๋ค์ํ ํํ๋ค ์ฌ์ฉํจ.
๊ฐ์ ์์ฑ์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํด์ (๊ฐ์ค์น๊ฐ ๋ค๋ฅด๊ฒ ์ฃ )
์ดํ Multi-Task ์์ PR ๋ชจ๋(์์ ์ธ์ ๋ชจ๋) ์์ ์ฃผ ์์ ์ธ์ ํ CTC loss ์ฌ์ฉ โ auxiliary tasks (๋ณด์กฐ ํ ์คํฌ) ์งํ.

์ผ๋จ ์ํ๊ธธ์ด n ์ ์์ ์ ๋ ฅ ์ ํธ x1โฆxn ์ด ์ฃผ์ด์ง๋ฉด multilingual ,monolingual encoder ๋ก๋ถํฐ ๊ฐ๊ฐ ํํ ๋ฒกํฐ ์ถ์ถํจ (1024 ์ฐจ์ ํน์ง ๋ฒกํฐ) โ ์ฐจ์ ์ถ์ ๊ฐ๊ฐ 300 ์ฐจ์์ผ๋ก โ concat ํด์ (300,2) ์ ๋ค์ค์๊ฐํํ์ ์ป๊ฒ ๋จ โ ๊ฐ์ ์์ฑ ๋ฐ์ดํฐ์ ๋ํด ์๋ก ๋ค๋ฅธ ๊ด์ (์ธ์ด์ , ์ํฅ์ ํน์ฑ ๋ฑ)์์ ์ ๋ณด๋ฅผ ์ถ์ถ
** ์ฐธ๊ณ ๋ก ์ฌ๋ฌ ์ธ์ฝ๋ ๋ณ๋ ฌ ์ฌ์ฉํด์ concat ํ๋ ๋ฐฉ์์ ์ ์ฌ ํํ ํ์ตํ๋๋ฐ ํจ์จ์ + ํ ์คํธ ์คํผ์น +a ๋ฉํฐ๋ชจ๋ฌ์์ ํธ๋ ๋๋ผ ํจ

โ ์ด๊ฑธ๋ก CNN ํต๊ณผ์ํด โ feature map ์ถ์ถ โ r ๊ฐ์ ๋ณด์กฐ๊ณผ์ ์ถ๊ฐ โ ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ ์กฐ์ ํน์ฑ ๋ถ๋ฅ

์์ PR ๋ชจ๋์์ ๋์จ ์์ ์๋ฒ ๋ฉ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ๊ฐ ๊ณผ์ ๋ณ label ์ํ์ค๋ฅผ ์ถ๋ ฅ.
๊ฐ ๋ณด์กฐ๊ณผ์ ๋ ๊ฐ ๋ถ๋ฅ๊ธฐ๋ง๋ค CTC loss ์ฌ์ฉ
์ต์ข ์์คํจ์๋ ์์ PR ์์ ์ด ์์ค + ๋ณด์กฐ ํ ์คํฌ๋ ๊ฐ๊ฐ ์ด ์์ค ์กฐํฉํด์ ๊ตฌ์ฑ
์ด๋ ๋ ผ๋ฌธ์ ํ๋ จ ์ ๋ต์ ๋๊ฐ์ง ์ ์ํจ
๋ณด์กฐ ํ ์คํฌ๋ฅผ ํ๋์ฉ ์ถ๊ฐํ์ฌ ํ์ตํ๋ฉฐ I step ๊ฐ๊ฒฉ์ผ๋ก ์ ํ๋์ด ๋ชจ๋ธ์ด ๊ธฐ์กด์ ํ์ตํ ํํ ์์ ์ ํํ ์์ ์ ์๊ฒ ํจ.
ํน์ ์ํฅ ํน์ฑ์ ๊ณผ์ ํฉ๋์ง ์์ผ๋ฉด์ ์ฌ๋ฌ ๋ฐ์ ํน์ฑ ๊ณ ๋ฅด๊ฒ ํ์ตํ ์ ์๋๋ก ํจ
4๊ฐ์ง ์กฐ์์ ํน์ฑ ๋ถ๋ฅํ๋ multi-task ์ํ
๋ชจ๋ธ ํ์ต + ํ๋ผ๋ฏธํฐ

์งํ ๋ณด๋ฉด multi-view multi - task MDD ๊ฐ Single View (SV) ๋ณด๋ค ์ฑ๋ฅ ์ฐ์ํจ์ ์ ์ ์์
monolingual ๋จ์ผ ์ธ์ฝ๋ ์ฌ์ฉ๋ณด๋ค 11.13%, multilingual ๋จ์ผ ์ธ์ฝ๋ ์ฌ์ฉ๋๋ณด๋ค 8.67% PER ๊ฐ์
Single View (๋จ์ผ ์ธ์ฝ๋) ๋ณด๋ค Multi View(๋ค์ค ์ธ์ฝ๋) ๊ฐ ๋ ์ฐ์ํจ
Multi-task ์ํฅ์ ๋ณด๋ฉด
SV ๊ธฐ์ค์์๋ SV + AT(Auxiliary task, ๋ณด์กฐ ๊ณผ์ ) ๊ฐ ๋ ๋์๋ฐ MV ์ด๋ฉด MV + AT ๋ ๋น์ทํจ
์์ ๋งํ ์ผ๊ด ํ์ต๊ณผ ์์ฐจ ํ์ต์ ๊ฒฝ์ฐ ๊ฐ์ฅ ์ฑ๋ฅ ์ข์๋ ์์นดํ ์ฒ์ ๋ํด์๋ง ์ผ๊ด ํ์ต์ด๋ ์์ฐจํ์ต์ด๋ ๋น๊ตํด๋ด : PER 1.48% ํฅ์, F1 1.56% ํฅ์
MVmulti + MVseq > MVmulti โ MTall (์์ฐจํ์ต์ด ๋ ์ฐ์ํ์)

๋ณธ ์์นดํ ์ฒ ํน์ง