bidirection도 고려하면서 generation 할 수 있다.
bidirecitonal transformer decoder codebook 이용하고, masking 비율을 100%에서 0%로 줄여가면서 generate