Multi-View Multi-Task Representation Learning for Mispronunciation Detection (2023)

J.·2025년 9월 23일

Text & Speech Papers

목록 보기

9/12

✔ Basic Info

📌 Multi-View Multi-Task Representation Learning for Mispronunciation Detection (2023)
🔗 https://arxiv.org/pdf/2306.01845

☑️Sum-up

Multi-View, Multi-Task 개념을 처음 알게 해준 논문
음성 논문이지만, 방법론에 대해 개인적으로 많이 배운 논문
L2 화자 (논문은 L1 을 영어권으로 두기 때문에 비영어권 사람) 의 다양한 발음 오류를 파악하기 위해 영어 인코더와 다국어 학습된 인코더를 병렬로 사용한 후 조음 특성 분류를 병렬 학습시켜 발음 탐지 성능을 극대화
L1 기반 영어 인코더 (wav2vec2 base) 로 영어 데이터 학습시킨 후 정상 발음을 기준으로 제공 (freeze)
L2 기반 다국어 인코더 (XLS-R53, wav2vec2 를 활용한 구조) 로 L2 화자의 실제 발음을 학습하며 학습 시각 제공 (fine-tune)

두 인코터 출력을 병렬로 구조화해서 phoneme 인식 성능과 발음 오류 감지를 강화한다.

☑️Glossary

MDD

제2 언어 학습하는 사람이 잘못 발음한 부분 탐지 후 → 발음 오류 진단 과정으로 이루어지는 시스템을 말함

ex. Think 를 Sink 로 발음을 했다면 우선 음성을 인식한 후

탐지 : “발음 오류”
진단 : “ 조음 위치 오류”

이에 맞춰서 피드백 제공

Multi-View

같은 음성을 입력받아도 서로 다른 두 인코더(혹은 그 이상)를 통해 받아들여서 상호보완적 정보를 추출하는 과정을 말함. 즉, A 라는 음성을 받아들였을 때 두 인코더에서 같은 음성을 처리해서 발음 특성을 더 풍부하게 학습하는 구조를 뜻함

단일언어 인코더 (monolingual) : 기준 L1 영어 발음표현으로 학습됨
다국어 인코더 (multilingual) :L2 화자 억양 악센트 오류 반영하도록 fine-tuning

Multi-Task

말 그대로 보조 과제를 줘서 학습시키는 모델. 이 논문에서는 Multi-View 를 MDD 모델과 결합해서 음소 시퀀스 인식뿐만 아니라 조음 특성을 분류하는 보조 과제까지 학습한다는 뜻

✅Abstract

학습자의 모국어 (L1) 와 목표어 (L2) 간 음운 차이는 발음 오류 탐지 및 진단 시스템 (MDD) 문제 해결에 중요한 과제임. 이걸 해결하기 위해 Multi-Task(보조 과제) 사용해서 동일 입력 데이터에 대해 여러 시각 (여기서는 두개의 인코더) 를 활용하고 저자원 환경에서 뚜렷한 음소 표현 학습하기 위해 새 아카텍처 제안함.

단일 언어 인코더 (mono-lingual) : 영어만으로 학습시킨 인코더 (기준으로 작용)
다국어 인코더(multi-lingual) : 다국어 데이터로 학습시킨 인코더 (다양한 언어와 악센트 걸친 음향 특성 포착)

이렇게 단일이 아닌 Multi-View 로 인코딩된 표현은 Multi-Task (다중 과제) 설정에서 조음 특성을 분류하는 보조과제 추가하면 더욱 강화됨

Result

L2-ARCTIC 데이터로 실험결과 모든 SOTA 모델 능가했으며 기존 single-view, multi-view baseline 대비 각각 11.13%, 8.60% PER (음소 오류율) 감소, 5.88%, 2.49% F1 Score 상승을 보임

✅Introduction

발음 오류 인식 및 피드백 시

기존 방법론
- 정렬된 ASR 출력과 기준 발화 간 차이 수동으로 찾았음
- Think 라고 말할때 ASR 이 /s ɪ ŋ k/ 라고 인식했는데 답이 /θ ɪ ŋ k/ 이면 처음 음소가 잘못 발음됐음을 알 수 있음
- ASR 의 로그 사후 확률 활용해서 발음 정확도 GOP 점수 계산

- 딥러닝 사용시 end-to-end 모델 or 사전 학습된 ASR 에서 추출한 GOP 특징으로 구성된 계단형 파이프라인 사용하기도 함 (여러 모듈이 단계적으로 처리되는 구조)
- 사전 학습된 ASR 로 음성→ 음소 시퀀스 생성
- GOP 점수(정확도 수치) 계산
- 이때 측정된 점수를 MDD 모델에 넣어 오류 판단

최근 방법론

CTC loss 로 학습된 end-to-end 모델이 우수한 성능 → CTC loss 특성상 강제 정렬이 필요 없음(CTC는 정답 시퀀스를 만들 수 있는 모든 정렬 경로를 고려해서 loss를 계산하니까)
CTC 디코딩 방법을 사용하여 MDD 를 위한 음소 시퀀스 생성하는 방법이 효과적 → 정답 라벨 없이 데이터가 스스로 학습하도록 하는 self-supervised learning 보다 더 뛰어난 결과 보임

본 연구

여러 인코더로부터 얻은 다중 시각 표현(multi-view)을 MDD 모델과 결합해 음소 시퀀스 인식 + 조은 특성 분류하는 보조 과제(multi-task)까지 학습할거임
이런 서브 과제의 조합은 음소 표현을 향상시킴 “unique view” 제시

✅Proposed MDD Framework

입력 데이터에 대한 여러 시각 (표현) 받아들임 → 이미지에서 보듯 서로 다른 인코더 (XLS-R-53 (Cross Lingual Large Scale Speech Representation of 53 languages) 53개 언어로 사전 학습된 대규모 다국어 음성 표현 모델에다가 L2 Arctic 데이터로 fine-tuning 된거 + wav2vec2-base 는 기본적으로 영어에 사전학습 되어 있음 → 영어 음성 특징을 잘 인식하도록 학습된 모델) 를 통해 다양한 표현들 사용함.

같은 음성을 다양한 방식으로 해석 (가중치가 다르겠죠)

이후 Multi-Task 에서 PR 모듈(음소 인식 모듈) 에서 주 음소 인식 후 CTC loss 사용 → auxiliary tasks (보조 테스크) 진행.

일단 샘플길이 n 의 원시 입력 신호 x1…xn 이 주어지면 multilingual ,monolingual encoder 로부터 각각 표현 벡터 추출함 (1024 차원 특징 벡터) → 차원 축소 각각 300 차원으로 → concat 해서 (300,2) 의 다중시각표현을 얻게 됨 → 같은 음성 데이터에 대해 서로 다른 관점(언어적, 음향적 특성 등)에서 정보를 추출

** 참고로 여러 인코더 병렬 사용해서 concat 하는 방식은 잠재 표현 학습하는데 효율적 + 텍스트 스피치 +a 멀티모달에서 트렌드라 함

→ 이걸로 CNN 통과시킴 → feature map 추출 → r 개의 보조과제 추가 → 논문의 경우 조음 특성 분류

앞선 PR 모듈에서 나온 음소 임베딩을 입력으로 받아서 각 과제별 label 시퀀스를 출력.
각 보조과제도 각 분류기마다 CTC loss 사용
최종 손실함수는 앞서 PR 에서 쓴 손실 + 보조 테스크때 각각 쓴 손실 조합해서 구성

이때 논문은 훈련 전략을 두가지 제안함

처음부터 모든 손실 합쳐서 학습
일정 간격으로 보조과제를 순차 전환하는 스케줄러 사용 → 이걸 추천함

보조 테스크를 하나씩 추가하여 학습하며 I step 간격으로 전환되어 모델이 기존에 학습한 표현 위에 새 표현 쌓을 수 있게 함.

특정 음향 특성에 과적합되지 않으면서 여러 발음 특성 고르게 학습할 수 있도록 함

✅Experimental Setup

데이터셋 : L2 ARCTIC

비원어민 영어 말뭉치. 음성변환 억양 변환, 발음 오류 탐지 관련 연구를 위해 공개된 데이터셋
힌디어, 한국어, 스페인어, 아랍어, 베트남어 등을 모국어로 하는 남성 12명, 여성 12명 데이터
train, test, val 12, 6, 6 명으로 나눠 실험

Encoder

monolingual encoder : wav2vec2 base (CNN + Transformer)
multilingual encoder : XLSR53 →사전학습된 wav2vec2 기반 모델, 53개 언어, 56000시간 분량 음성 데이터로 학습 (구조는 wav2vec2 랑 동일) CNN + Transformer 구조

보조 과제

4가지 조음적 특성 분류하는 multi-task 수행

조음 위치 (place of articulation) - 발음 생성이 어디서 되는가
조음 방식 (manner of articulation) - 발음 생성 방식
고저음 위치 (high-low) 혀의 수직 위치
전후 위치 (front-back) 혀의 앞뒤 위치

모델 학습 + 파라미터

인코더와 테스크 헤드 함께 학습함. 각 테스크 헤드 손실값 (4개 따로따로 손실값 구했으니까) 평균으로 전체 multi-task 손실 최적화해서 역전파 수행
처음 2000 step 동안에는 음소 인식 (PR) 만 수행하고 이후부터는 각 보조 과제를 하나씩 추가하면서 multi-view 설정 미세조정
순서는 PR (Phoneme Recognition) → PR + 조음 방식 → PR + 조음위치 → PR + 높낮이 → PR + 앞뒤 위치
최적 모델 선택을 위해 PER 사용

✅Result & Discussion

지표 보면 multi-view multi - task MDD 가 Single View (SV) 보다 성능 우수함을 알 수 있음
monolingual 단일 인코더 사용보다 11.13%, multilingual 단일 인코더 사용때보다 8.67% PER 감소

F1 은 각각 5.88% 2.49% 증가
SV 랑 MV 비교했을때 F1 은 monolingual 랑 비교했을 때는 1.01%, multilingual 랑 비교했을 때는 1.37% 증가
PER 은 mono 3.96%, multi 랑 비교시 1.5% 감소

Single View (단일 인코더) 보다 Multi View(다중 인코더) 가 더 우수함

Multi-task 영향을 보면

SV 기준에서는 SV + AT(Auxiliary task, 보조 과제) 가 더 나은데 MV 이면 MV + AT 랑 비슷함

앞서 말한 일괄 학습과 순차 학습의 경우 가장 성능 좋았던 아카텍처에 대해서만 일괄 학습이냐 순차학습이나 비교해봄 : PER 1.48% 향상, F1 1.56% 향상

MVmulti + MVseq > MVmulti → MTall (순차학습이 더 우수했음)

✅Conclusion

본 아카텍처 특징

단일 언어, 다국어 인코더로부터 다양한 입력 표현 (view) 활용
보조 과제 (multi-task) 통해서 발화의 다양한 속성 포착 가능
저자원 환경에서 시간적으로, 음성적으로 구별되는 표현 학습 가능

본 MDD 모델은 오발음 탐지, 음소 인식 모두 보조 데이터 없이 단일 view 모델 능가
이를 통해 입력 신호 다양한 시각에서 (즉 여기선 인코더 두개 쓴거 말하는거겠죠!) 학습하면 제한된 자원 내에서도 L1, L2 음운 표현 중 구별 및 공통 패턴 파악 가능함을 시사
향후 억양 등 초분절 오류 탐지하기 위해도 이런 multi-view 모델 활용 잘 할 수 있지 않을까.

AI & Languages galore.

이전 포스트

Improving Mispronunciation Detection with Wav2Vec2 - based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment (2022)

다음 포스트