왜 binary classification task인데 BCEwithLogitLoss를 쓰는 것보다 CrossEntropyLoss를 쓰는게 전반적인 성능이 잘 나오는 거지..?
reference https://kim95175.tistory.com/26