원본 논문: 논문 바로가기논문 내용을 정리하는 글입니다. 논문 전체 내용을 담고 있지 않을 수 있습니다. 또한, 잘못된 내용이 있을 수도 있습니다. 감사합니다.존재하는 tabular data에 관한 deep learning 문헌은 다양한 범위의 새로운 구조를 제안하고

SER 은 고정된 카테고리의 개수로 감정을 분류하기에 이는 불충분할 수 있음따라서 emotion을 묘사하고자 하였으며, 이를 위해 캡셔닝 기술을 적용했음텍스트 디코더 : 라마, 오디오 인코드 : 휴버트, 이 둘사이를 이어주는 것으로 QFormer 사용QFormer는 감