[Paper Review] Enriched Music Representations With Multiple Cross-Modal Contrastive Learning

TAEHYEONG·2021년 9월 7일
0

Recommendation Systems

목록 보기
1/1

Abstract

음악 작품을 독특하게 만드는 다양한 측면을 모델링 하는 것은 여러 정보 소스의 조합을 필요로 하는 어려운 작업입니다. 딥러닝은 일반적으로 오디오, 사용자와 노래 간의 상호 작용 또는 관련 장르 메타데이터와 같은 다양한 정보 소스를 사용하여 표현을 얻는데 사용됩니다. 최근에 대조 학습은 전통적인 지도 방법에 비해 더 잘 일반화되는 표현으로 이어졌습니다. 이 논문에서 우리는 교차 모드 대조 학습을 사용하여 음악과 관련된 여러 유형의 정보를 결합하여 이종 데이터에서 오디오 기능을 동시에 학습할 수 있는 새로운 접근 방식을 제시합니다. 대조 손실을 사용하여 이러한 양식 표현 간의 일치를 최대화하여 재생 목록(트랙 상호 작용, 장르 메타데이터 및 트랙 오디오)에서 얻은 잠재 표현을 정렬합니다. 장르 분류, 재생 목록 연속 및 자동 태깅이라는 세 가지 작업에서 접근 방식을 평가합니다. 이러한 양식을 예측하도록 훈련된 기준 오디오 기반 CNN과 성능을 비교합니다. 또한 임베딩 모델을 훈련할 때 여러 정보 소스를 포함하는 것의 중요성을 연구합니다. 결과는 제안된 방법이 세 가지 다운스트림 작업 모두에서 기준선을 능가하고 최신 기술과 유사한 성능을 달성함을 시사합니다.

다양한 응용 프로그램에 사용할 수 있는 음악과 관련된 여러 소스와 유형의 정보가 있습니다. 예를 들어, 오디오 기능을 사용하는 것이 사용자의 청취 데이터를 사용하는 것보다 음악 장르를 예측하는 데 더 나은 성능을 보였습니다[1]. 반면에 후자는 음악 추천[2]과 기분 예측[3]에서 더 좋은 성능을 보였다. 노래의 모든 관련 정보를 결합한 숫자 기능 표현을 사용하면 장르 예측, 분위기 추정 및 음악 추천과 같은 문제를 해결하는 더 나은 자동 도구를 만들 수 있습니다.

지난 몇 년간 딥러닝의 발전으로 다양한 유형의 데이터를 결합하여 여러 작업의 성능을 향상할 수 있었습니다. 예를 들어, Oramas et al. [4]는 음악 자동 태깅을 위해 텍스트, 오디오 및 이미지를 결합한 다중 모드 접근 방식을 제안하고 Suris et al. [5]는 교차 모드 검색을 위해 시청각 임베딩을 결합하는 방법을 제안합니다.

딥러닝을 사용하면 다양한 입력 데이터에서 여러 다운스트림 작업에 사용할 수 있는 임베딩 공간으로 매핑을 학습할 수 있습니다[6]. 음악 영역에서 표현 학습을 위한 가장 일반적인 접근 방식은 오디오 기반 분류기를 훈련시켜 장르, 분위기 또는 악기와 같은 일부 음악 측면을 예측한 다음 사전 훈련된 모델을 사용하여 다른 작업에 사용할 수 있는 임베딩을 추출하는 것입니다. Alonso et al. [7] 춤 가능성, 분위기, 성별 및 음색과 같은 노래의 여러 측면을 예측하기 위해 사전 훈련된 다양한 아키텍처를 비교하여 이러한 사전 훈련된 모델의 일반화 기능을 보여줍니다. 딥 메트릭 학습 분야의 대체 방법은 최근 사전 훈련 분류 모델의 접근 방식에 비해 여러 다운스트림 작업에서 더 나은 성능을 보여 [8], [9], 더 큰 다양성으로 일반화하기 위한 딥 메트릭 학습의 큰 잠재력을 보여줍니다. 작업의.

대조 학습은 지난 몇 년 동안 인기를 얻었습니다[10]. 이러한 접근 방식을 사용하면 유사 항목과 유사하지 않은 항목을 대조하는 메트릭 학습 목표를 사용하여 표현을 학습할 수 있습니다. 유사한 예를 긍정적 예라고 하고 유사하지 않은 예를 부정적 예라고 합니다. 삼중항 손실[11]에 기반한 접근 방식은 앵커로 구성된 삼중항, 긍정 및 부정 예를 정의해야 합니다. Triplet Loss는 최근 검색[1] 및 Zero-shot Learning[12]을 위한 음악 영역에 적용되었습니다. 그러나 삼중항을 샘플링하는 전략은 학습 과정에 중요하며 상당한 노력이 필요할 수 있습니다. 삼중항을 정의하는 대신 infoNCE[13] 및 NT-Xent[14]와 같은 쌍을 이루는 예의 비교에 의존하는 다른 손실이 있습니다. 훈련 예를 샘플링하기 위한 특정 전략을 정의할 필요 없이 훈련할 때 미니 배치 내의 모든 데이터 포인트를 포함하는 이점이 있습니다. 이러한 대조적 손실 기능을 자체 감독 방식으로 사용하면 주석이 달린 데이터 없이 강력한 이미지[14], 사운드[15] 및 음악 오디오[16] 표현을 학습할 수 있습니다. 대조 학습은 의미론적으로 풍부한 오디오 기능을 학습하기 위해 사운드(오디오) 정보 및 관련 텍스트 메타데이터를 사용하는 교차 모드 접근과 함께 감독 방식[17,18]으로도 적용되었습니다. 학습된 기능은 어반 사운드 이벤트 및 악기 인식에서 경쟁력 있는 성능을 달성합니다[17].

위에서 언급한 연구는 대조 학습을 기반으로 하는 방법이 다양한 작업에 대한 심층 오디오 임베딩의 성능을 향상시키는데 유망한 다양한 유형의 데이터를 활용할 가능성이 있음을 시사합니다. 그러나 우리가 아는 한 풍부한 음악 오디오 기능을 배우기 위해 대조 학습을 통해 여러 양식을 활용하는 데 중점을 둔 작업은 없습니다. 이는 음악 장르 분류, 자동 재생 목록 연속, 자동 재생 목록 연속과 같은 여러 다운스트림 작업에서 잘 수행될 수 있는 오디오 표현을 얻기 위해 다양한 유형의 음악 관련 정보(예: 오디오, 장르 및 재생 목록)를 활용하는 접근 방식을 조사하도록 동기를 부여합니다. 및 음악 자동 태깅. 우리의 결과는 제안된 대조 학습 접근법이 최신 기술에 필적하는 성능에 도달하고 음악적 측면을 기반으로 분류 또는 회귀를 위해 사전 훈련된 모델보다 성능이 우수함을 보여줍니다.

우리의 기여는 다음과 같습니다. i) 우리는 Favory et al. 이 제안한 접근 방식을 기반으로 음악 영역에 최적화된 업데이트된 오디오 인코더를 제안합니다. [17], [19]. ii) 의미론적 메타데이터 및 협업 필터링 정보를 활용하기 위해 다중 모드 데이터 정렬을 사용합니다. iii) 분류 또는 회귀에 대한 사전 교육을 기반으로 하는 다른 일반적인 접근 방식과 비교하여 서로 다른 데이터 세트를 사용하여 세 가지 다운스트림 작업에서 얻은 표현을 평가합니다. iv) 또한 각 정보 소스의 성능을 독립적으로 비교하여 제거 연구를 포함합니다. 이를 통해 모델의 다른 부분의 중요성을 이해할 수 있습니다.1

2. Proposed Method

Fig. 1. Diagram with architecture of the method.

A. Obtaining the Latent Representations

B. Optimization and Alignment of Latent Representations

3. Evaluation

우리의 방법을 평가하기 위해 ea를 얻기 위해 Melon Playlist Dataset[23]을 D로 사용합니다. 그런 다음 다른 다운스트림 작업에 적용하여 학습된 표현을 평가합니다. 특히 장르 분류, 오디오 태깅 및 자동 재생 목록 연속에 중점을 둡니다. 각 작업에 대해 ea를 오디오 인코더로 사용하여 해당 작업에 대해 훈련된 분류기에 임베딩을 제공합니다.

3개의 인코더(ContrCF-G)를 사용하지만 ea 및 ew(ContrG)만 사용하는 방법과 ea 및 ecf(ContrCF)만 사용하는 방법을 비교하여 방법의 각 인코더 기여도의 이점을 평가합니다. 또한 오디오 인코더에서 대상 정보를 직접 예측하는 기준 아키텍처를 사용하여 각 작업의 성능을 비교합니다. 이러한 방법을 장르 정보로 훈련된 모델의 경우 B-lineG, CF 정보를 예측하도록 훈련된 모델의 경우 B-lineCF, 두 유형의 정보를 동시에 예측하도록 훈련된 모델의 경우 B-lineCF-G라고 합니다.

A. Melon Playlist Dataset and Audio Features

모델 학습에 사용된 데이터 세트 D는 원래 한국의 음악 스트리밍 서비스인 멜론을 수집했습니다. 데이터 세트는 멜 스펙트로그램으로 표시되는 M = 649,091개의 노래와 Mpl = 148,826개의 재생 목록으로 구성됩니다. 노래와 관련된 고유한 장르의 수는 219개입니다. 모델을 훈련하기 위해 데이터 세트의 노래를 훈련(80%), 검증(10%) 및 테스트(10%)로 분할합니다. 노래와 관련된 장르의 모든 세트에서 유사한 예시 분포를 보장하기 위해 계층화된 접근 방식[24]을 적용하여 분할을 수행했습니다.

데이터 세트에서 제공되는 미리 계산된 멜 스펙트로그램은 Fa=48 멜 밴드의 해상도로 20~50초 범위에 해당합니다. 이러한 감소된 멜 밴드 해상도는 이전 연구[25]에서 자동 태깅 방식의 성능에 부정적인 영향을 미치지 않았으며 저작권 문제를 피할 수 있도록 재구성된 오디오의 품질이 현저히 낮습니다. 이전 작업 [26]에 이어 Ta=256.2를 사용하여 오디오 인코더를 훈련할 노래 섹션을 무작위로 선택합니다.

B. Parameters Optimization

이전 작업 [1], [26]에서 가장 우수한 성능에 이어 오디오 인코더는 Z = 7 레이어 및 K = 3을 사용합니다. 우리는 모델의 하이퍼 매개변수를 선택하기 위해 예비 평가를 수행하여 검증 및 훈련 손실을 비교했습니다. 과적합 모델을 방지하기 위해 설정합니다. CF 표현의 차원을 Fcf = 300으로 정의하고 장르 표현 Fw = 200으로 정의했으며 노래당 Tw<= 10개의 장르를 지정했습니다. 동일한 예비 평가에서 온도 τ = 0.1, 배치 크기 128, 학습률 1e-4, 드롭아웃 0.5, self-attention을 위한 헤드 수 4를 정의했습니다. 다른 손실과 우리는 λA2G=λA2P=λG2P=1을 사용했습니다.

C. Downstream Tasks

Melon Playlist Dataset으로 모델이 훈련되면 사전 훈련된 모델을 사용하여 다른 데이터 셋에 있는 각 노래의 오디오에서 임베딩을 생성합니다. 그런 다음 생성된 임베딩을 사용하고 각 특정 작업의 성능을 비교합니다. 다음에서는 각 다운스트림 작업과 사용된 데이터 세트에 대해 설명합니다.

Genre Classification

30초를 제외한 음악으로 구성된 GTZAN 데이터 세트[27], [28]의 결함 필터링 된 버전을 사용하고, 10개의 클래스를 사용하여 단일 레이블로 지정하고, 훈련용 노래 443개와 테스트용 노래 290개로 미리 계산된 세트로 분할합니다. 훈련 세트를 사용하여 ReLU 활성화로 크기 256의 은닉층 하나의 MLP(다층 퍼셉트론)를 훈련하고 테스트 세트에서 정확도를 계산합니다. 공정한 평가를 얻기 위해 이 과정을 10번 반복하고 정확도를 평균합니다. 트랙의 각 임베딩 프레임을 다른 학습 인스턴스로 간주하고 장르를 추론할 때 다수결 전략을 적용합니다. 우리는 또한 [30]에 보고된 결과를 사용하여 문헌 [29]–[30][31]에서 가져온 사전 훈련된 임베딩 모델의 성능을 포함합니다.

Automatic Tagging.

우리는 MTG-Jamendo 데이터 세트[32]에 의존하며, 여기에는 장르, 악기 및 분위기/테마 카테고리의 195개의 서로 다른 태그를 사용하여 다중 레이블이 지정된 55,000개 이상의 전체 오디오 트랙이 포함되어 있습니다. - 훈련된 오디오 임베딩을 입력으로 사용합니다. 겹치지 않는 프레임에서 계산된 임베딩을 평균 통계와 평균화하여 모든 트랙의 임베딩을 계산합니다. 이 모델은 ReLU 활성화가 있는 128 및 64 크기의 두 개의 은닉 레이어로 구성되며, 각 레이어 이후의 일괄 정규화와 끝에서 두 번째 레이어 이후의 드롭아웃 정규화를 포함합니다. 조기 중지를 위해 검증 세트를 사용하고 마지막으로 ROC AUC를 사용하여 테스트 세트의 성능을 평가합니다. 이러한 평가는 3개의 분리된 태그 범주에서 수행되며, 각각은 자체 분할을 사용합니다. 절차를 10회 반복하고 평균 평균을 보고합니다.

Playlist Continuation.

테스트 세트에 하나 이상의 트랙이 포함된 Melon 재생 목록 데이터 세트의 재생 목록을 사용합니다(임베딩 모델을 교육할 때 사용하지 않음). 이것은 104410 재생 목록을 제공하며 100 연속 트랙을 제공하는 것을 목표로 합니다. 겹치지 않는 프레임에서 계산된 임베딩을 평균 통계와 평균화하여 모든 트랙의 임베딩을 계산합니다. 그런 다음 재생 목록의 각 트랙에 대해 테스트 세트의 트랙 중에서 가장 유사한 트랙 100개를 계산합니다. 이러한 트랙은 임베딩 공간의 코사인 유사도를 사용하여 얻습니다.4 재생 목록에 대해 검색된 모든 유사 트랙 중에서 마지막으로 가장 많이 반복되는 100개의 트랙을 선택합니다. 우리는 음악 추천 시스템의 성능을 평가하는 데 일반적으로 사용되는 정규화된 nDCG(Discounted Cumulative Gain) 및 MAP(Mean Average Precision)[34]을 사용하여 이를 실제와 비교합니다. 이러한 순위 측정항목은 예측에서 반환된 각 재생 목록의 항목 순서를 평가합니다. 예측 순위 목록에 상위에 더 가까운 테스트 세트의 항목이 포함된 경우 지정된 재생 목록에 대해 더 높은 점수를 반환합니다.

4. Results

장르 분류에 초점을 맞춘 표 I의 결과는 대조 손실을 사용하여 훈련할 때 오디오 임베딩의 성능이 양식 정보(B-라인)를 예측하기 위해 직접 훈련된 모델을 사용하는 것보다 항상 더 높다는 것을 보여줍니다. 임베딩 모델(ContrCF-G)을 훈련할 때 CF 정보도 고려할 때와 유사한 결과로 ContrG에서 최상의 성능을 얻을 수 있습니다. 또한 ContrG 모델의 성능이 최첨단 사전 훈련된 임베딩(VGGish 오디오 세트)[30], [31]과 비슷하다는 것을 알 수 있습니다. 이는 멜론 재생 목록 데이터 세트의 많은 부분이 GTZAN 컬렉션의 대중적인 서양 음악과 다를 수 있는 한국 음악으로 구성되어 있기 때문에 특히 흥미롭습니다.

TABLE 1 GTZAN Results

자동 태깅. 표 II의 결과로부터 우리는 대조 학습에 기반한 방법이 거의 모든 경우에 기준선을 능가한다는 것을 알 수 있습니다. 악기 및 장르 태그에 대한 최상의 결과는 ContrG 모델을 사용하여 얻을 수 있습니다. 무드 태그의 경우 재생 목록과 장르 주석의 정보를 활용하는 ContrCF-G를 사용하여 최상의 성능을 얻을 수 있습니다.

TABLE 2 Automatic Tagging Results

TABLE 3 Playlist Generation Results

자동 재생 목록 연속 작업의 결과는 다른 작업과 동일한 경향을 따릅니다. 대비 손실을 사용하여 훈련된 모델은 장르 또는 CF 표현을 예측하기 위해 직접 훈련된 기준선보다 더 나은 성능을 보입니다. 장르와 CF 정보를 결합한 ContrCF-G 모델로 최고의 성능을 얻을 수 있습니다.

5. Conclusion

이 연구에서는 대조 학습을 사용하여 음악과 관련된 여러 정보 소스를 결합하여 오디오 표현을 학습하는 방법을 제안합니다. Melon Playlist Dataset의 정보를 사용하여 모델을 사전 학습하여 방법을 평가하고 음악 도메인의 세 가지 다운스트림 작업(장르 분류, 자동 태깅 및 자동 재생 목록 연속)의 성능을 비교합니다. 대조 학습을 사용하면 장르 또는 협업 필터링 정보를 예측하기 위해 직접 훈련된 모델을 사용하는 것보다 더 높은 성능에 도달할 수 있음을 알 수 있습니다. 이는 대조 학습이 이질적인 정보로부터 동시에 학습하는 것이 효과적이라는 것을 나타내며, 이를 통해 서로 다른 작업에 걸쳐 전반적인 성능을 향상시킬 수 있습니다.

임베딩 모델 교육에 사용된 데이터 세트는 사용하지 않은 추가 유형의 정보를 제공합니다. 여기에는 제목, 재생 목록 태그 및 작성자와 트랙의 기타 메타데이터가 포함됩니다. 향후 작업으로 이 재생 목록 수준 정보를 통합할 것을 제안합니다. 이 정보는 아키텍처에 추가 수준의 추상화를 필요로 합니다.

0개의 댓글