사실관계 정리
+, - Loss 로 구별할 수 있고, 해당 Loss 에 감마를 높인다는 것(많이 곱한다는 것은) 가중을 덜 주는 것과 같다. 따라서 예컨대 True 에 가중을 더 주고싶다면 감마+= 1 , 알파1 = 2 과 같은 선택을 하면 된다.
알파1은 p에 상관없이 지속적인 gradient 의 제공, 알파2는 p와 선형적인 연관을 가진다. 나머지 식은 p와 강하게 연결되어 있다.
negative 는 threshold 를 설정하여 훈련에 영향을 미치지 않도록 할 수 있고, 베타1 을 조정하는 것이 긍정, 부정 클래스의 비율을 조정하는데 도움이 된다. 베타는 높아질수록 BCE loss 와 가까워지고, 낮아질수록 (0에 가까워질수록) BCE loss 와 멀어진다.
베타1을 조정하는 건 mislabelling problem 을 조정할 수 있다.
베타 = 1을 유지하면 감마- 를 아무리 다르게 해봤자 별로 소용이 없다.
베타를 조금만 바꾸면 loss 값이 크게 달라진다. 0-1.25 사이에서 BCE loss 와 비슷한데, 1.25는 0.6 이상 p에서 loss 가 BCE 보다 더 찍히고, 0은 계속 덜 찍힌다.