link: https://arxiv.org/pdf/1911.12423.pdf
NeurIPS 2020
discrete distribution의 원래 non-differentiable sample을 해당 Gumbel-Softmax distribution의 미분할 수 있는 sample로 대체할 수 있는 간단하고 효과적인 방법
를 최적화하려는 binary random variable 의 distribution vector
여기서 logit 는 l-th block이 task 에서 실행하도록 선택될 확률
task 에서 l-th block에 대해 select-or-skip decision 를 직접 sampling하는 대신, 다음과 같이 생성