
Lyrics와 quantized f0된 melody를 FFT encoding을 하면 [batch size, hidden channel, time(seq_len)-> 시퀀스 Length]가 나온다.
sequence length가 다를 수도 있지 않누??
mean pooling을 하세유~~
hidden channel의 각 feature마다 Mean을 때려서 seq len을 1로 맞춤 -> melody도 마찬가지
ex)
------hidden channel---------
김
민
재
짜
스
mean mean mean mean mean mean ....