
- 모델이 음성과 텍스트 다중 모달리티를 처리하고 원하는 Modality의 답변을 자연스럽게 생성하게끔 하기 위해 음성 신호를 이산 토큰으로 인코딩하여 직접 LLM에 통합하는 방법을 제안.




Train Method
1. Modality Adaptation Pre-Training
Speech Modality 간의 학습을 진행하기 위하여 NLP에서의 LLM Pretrain 방법과 동일하게 LLM weight에 speech token들만 이용하여 SSL Method로 Full-Fine Tuning 수행
2. Cross Modal Instruction Fine Tuning
Speech-Text Cross Modality의 Mapping 능력을 학습하기 위하여 Cross-Modal Instruction Dataset을 이용하여 Full-Fine Tuning 수행
3. Chain of Modality Instruction Fine Tuning
Speech-Text Cross Modality의 Generation 능력을 학습하기 위하여 Chain-of-Modality Instruction Dataset에서 Speech token, Text token, Speech Response token, Text Response token을 랜덤하게 적절히 섞어 Pair를 생성한 후, 해당 데이터를 사용하여 LoRA Fine Tuning 수행.


