이번 포스트에서는 음성 컨퍼런스로 유명한 interspeech의 2024 논문들을 소개해보려고 합니다. Interspeech 컨퍼런스는 등재되는 논문이 워낙 많아서 저도 다 볼 수는 없었고, LLM 관련된 논문을 골라 읽어보았습니다. 멀티모달 시대에 맞게 음성 처리 모델과 LLM을 결합한 논문이 많이 보여서 흥미로웠는데, 그 중에 몇 가지를 골라 소개해보려고 합니다. 모든 논문이 레퍼런스 포함 5페이지 이내여서 아카이브 페이지를 통해 관심 있는 주제가 있다면 읽어보시는 걸 추천드립니다!
음성 인식(ASR) 모델은 일반적으로 n-best 후보들 중에서 가장 확률이 높은 후보를 선택하여 인식 텍스트를 출력합니다. 하지만 이 과정은 맥락 정보가 부족하면 인식 정확도가 떨어질 수 있는데요. 이를 보완하기 위해 연구에서는 n-best 결과에 맥락 정보가 포함된 프롬프트를 합쳐 LLM의 입력값으로 줄 수 있도록 fine-tuning을 진행하였습니다. 음성을 인식할 때 음성이 어떤 내용을 이야기하는지에 대한 맥락 정보를 참고하여 더 정교하게 인식할 수 있는 방법을 제시했다는 점에서 의의가 있습니다. Domain-specific한 상황의 음성을 더 유연하게 인식할 수 있을 것 같네요! (원문)

1번 논문과 비슷한 연구입니다. 대신 1번 논문은 음성 인식 결과를 LLM에 입력했다면, 이번 논문은 음성 인식 모델의 decoder에 프롬프트를 넣는 방식입니다. 음향 정보와 텍스트를 매핑하는 Whisper decoder에 SOP(Start of previous)와 SOT(Start of transcript) 토큰 사이에 domain과 관련된 설명을 추가하여 훈련합니다. 이 방법으로 연구에서는 전문 용어와 같은 단어의 인식 정확도를 높일 수 있었습니다. (원문)
개인적으로 흥미롭게 다가온 연구였는데요, LLM에 알츠하이머를 판단하는 macro-descriptors의 역할을 지시하여 주어진 음성 인식 결과를 보고 알츠하이머의 음성인지 판단할 수 있는 프롬프트를 구축하였습니다. 그 결과 학습한 이진 분류기보다 프롬프트를 활용하여 LLM에게 예측을 수행하도록 지시하는 것이 알츠하이머를 더 효과적으로 판단할 수 있었다고 합니다. (원문)
LLM을 사용하여 말 더듬음을 감지하는 시스템을 제안하는 연구입니다. 발화가 중단되거나, 소리나 단어를 반복하거나, 단어를 연장하거나 불필요한 삽입음이 추가되는 등의 비유창성을 LLM이 감지할 수 있도록 합니다. 이를 위해 음성인식 모델인 wav2vec 2.0 모델의 인코더를 사용하여 audio feature를 추출하고, whisper를 사용해 전사 텍스트를 추출하여 두 데이터를 LLM의 입력으로 들어가도록 LoRA fine-tuning을 진행하였습니다. LLM이 음성의 음향적 특징과 전사 텍스트를 동시에 학습하도록 훈련하여 말 더듬음을 좀 더 명확하게 잡아낼 수 있었습니다. (원문)
이외에 llm을 활용한 real-time 음성 대화, speech encoder와 LLM을 이어주는 adapter에 관련된 논문들이 더 있었지만, 관련해서는 별개의 포스팅으로 다루고 싶어서 이번 포스팅은 이렇게 마무리하도록 하겠습니다. 이번 Interspeech에는 이전에 비해 음성과 LLM을 함께 다룬 논문들이 더 많아진 것 같아서, 다음 해 Interspeech에서는 또 어떤 주제가 나올지 기대가 됩니다.