YAMNet 이후 우리 팀은 뭔가 Turning Point가 필요했다. 뭔가 더 이상 진전할 수 있는 방법을 생각하기 어려운 나머지 멘토링을 받기로 했다.
멘토님을 간단히 소개하면 모두의 연구소에서 Rubato Lab 랩 장을 맡고 계시다. 루바토 랩은 생성형 AI를 통해 음원제작에 연구하는 팀이라고 보면 될 것 같다.
Rubato Lab
우선 오디오 분야에 전문가이시기 때문에 왠지 멘토링 이후 막혔던 부분이 뻥~ 뚫릴 것 같은 느낌이 들었다.
아니다 다를까 멘토링은 나름 만족스러웠다. 우선 우리가 해온 과정에 대해 잘못된 점을 짚어주셨다. 특히, input type에 대해서 말이다.
우리는 줄곳 MFCC를 써왔지만 멘토님께서 MFCC 는 음색을 나타내는 Feature가 아니기 때문에 Mel Spectrogram의 Input으로 바꿔보라고 제안하셨다.
그리고 더 나아가 YAMnet은 SOTA 모델이 아니기 때문에 그래도 최신 모델인 Transformer 기반의 Encoder를 써서 classification task에 적용해 보라고 알려주셨다.
추천해 주신 모델은 다음과 같다.
솔직히 Transformer에 대해 이해가 잘 되어 있지는 않았지만 성능을 높여보기 위해 팀원들과 공부하고 적용하는 방향으로 결정을 하게 됐다.
마지막으로 멘토님께서 unlabeled data를 Autoencoder 에 Unsupervised 방식으로 학습시킨 후 Encoder를 떼와서 classification을 진행해 보는 방법도 제시해 주었다. 개인적으론 dataset 사이즈가 작은 상황을 고려하면 제시해 주신 Autoencoder 아이디어가 제일 흡족스러웠다.
👉👉 다음 챕터 읽으러 가기