음악 분류 딥러닝을 만들자(1) - 사전지식

응큼한포도·2024년 5월 30일

음악 딥러닝과 mel-spectrogram

목록 보기

23/64

데이터 확보

음악 분류 딥러닝 모델을 만들기 위해서 음원을 확보한다.

원하는 음악들만 분리된 음원이 필요하다. 얻는 법은 다음과 같다.

내가 직접 녹음

제일 좋은 방법이다. 내가 원하는 대로, 의도하는 대로 녹음해서 데이터를 확보 할 수 있기 때문에 가장 좋다.

내가 이 분야를 꾸준히 연구하고 싶다면 오디오 인터페이스와 노트북, daw 프로그램을 이용해 녹음을 해주자. 스튜디오에 비해서 녹음 품질은 안 좋지만 요즘엔 기술이 좋아서 생각보다 고품질의 음원을 얻을 수 있다.

만약 내가 음성 딥러닝을 하고 싶다면 마이크, 케이블을 이용해 오디오 인터페이스에 연결해 똑같이 진행 해준다.

오디오 인터페이스 싼거 20-30만원, 녹음용 마이크 10-30만원, 케이블 등 100만원대 아래로 싸게는 40-50만원대로 끊을 수 있다.

오인페는 사놓으면 딥러닝 말고도 내 음악 녹음해서 유튜브에 올릴수도 있어서 상당히 좋다.

daw 프로그램을 고를 땐 맥북인지 아니면 윈도우 노트북인지에 따라 사용할 수 있는 프로그램이 나뉘어져 있다. 맥북이면 logic pro, 윈도우면 cubase 등등 선택하면 된다.

사운드 엔지니어가 올린 파일 활용

원래 사운드 엔지니어들이 음악안에 목소리나 악기를 분리한 파일들을 올리곤 한다.

검색어는 악기는 isolated, guitar only 등등
보컬은 acapella, vocals only를 검색하면 쉽게 구할 수 있다.

모델 목적

딥러닝 모델을 만들기 전에 모델 목적을 정하는 게 좋다. 모델에 따라 얻어야 하는 데이터가 다르기 때문

나는 저번에 악기 분류 딥러닝을 진행했고 이번 예제에선 가수 보컬에 따라 가수를 분류하는 딥러닝 모델을 만들어 보겠다.

모델을 정하자

가수 분류 모델을 만들기 위해서 어떤 딥러닝 방법을 선택할까? 나는 이렇게 선택하겠다.

단순한 분류라 시간에 따라 음성을 재생안해도 됨

-> RNN 대신 CNN 모델을 선택하자. 시계열 데이터을 예측, 분류하는 게 아니라 CNN으로 충분하다.

데이터 가공법은 mel-spectrogram으로 하겠다

데이터 선택법은 이 시리즈의 전 글을 확인하자. 단순한 분류에서 mel-spectrogram을 이미지로 가공해 모델에 활용하자.

CNN은 이미지 분류와 궁합이 좋기 때문에 이미지로 가공하겠다.

데이터를 많이 확보하자

데이터를 충분히 확보하는 게 좋다. 내 경험상 최소 가수당 10 - 20곡 정도 확보하자.
데이터가 너무 작으면 모델 학습자체가 안될 수 있다. 너무 많다면 투입되는 데이터를 줄이면 되니까 넘치게 준비하자.

다음 시간엔 데이터를 선택하고 가공하는 방법을 설명하겠다.

응큼한포도

이전 포스트

음악, 음성 딥러닝 데이터 선택(중요)

다음 포스트