기존 multi-label classification 의 문제점
1. BCE loss 는 최적화된 모델, 도메인에서만 동작하여 다양한 tasks 에서까지 높은 성능을 보이는 건 아님
2. negative, positive 사이의 불균형이 성능을 낮춤
따라서 이 논문은, 이러한 문제를 해결하기 위해 Asymmetric Polynomial Loss(APL)를 제안.
텍스트와 이미지 모두 검증한 결과 APL loss 가 성능 향상에 도움이 된다는 것을 밝힘.
[Multi-label classification, Taylor Expansion, Asymmetric Focusing, BCE]
결국 목적은 더 다양한 tasks 에서도 동작할 수 있도록 loss function 을 tuned 한다는 것.
발견한 두가지 사항이 있다.
각각의 동립적인 binary classfication 부문제에서, negative log-likelihood loss 는 최적이 아님 (lagarithm's Taylor expansion의 다항식 계수) -> 이것들을 합친 multi-label claasification 문제에서도 따라서 최적이 아님
만약 positive label이 적고, negative label 이 많은 식으로 불균형하다면 문제 -> 많은 negative samples 들이 더 gradient weights 에 가담하여 positive samples 에 대해 최적이 될 수 없음
💡논문의 제안: 그럼 Asymmetric Polynomial Loss 라는 걸 쓰자 (APL).
추가로, 서로 다른 클래스 개수에 대한 문제를 없애도록 각각의 클래스에 대해 계수를 조정하는 것이 아니라 -> collectively tune the coefficients of leading polynomial
2의 문제를 해결하기 위해서 asymmetric focusing mechanism 사용, 드문 positive samples가 gradient contribution 을 늘리도록.
Defferent focusing parameters가 loss 를 분리시키고,
positive samples 에 집중
easy negative samples (부정이라 판단되는 확률이 적은 것)의 방해를 줄이기 위해 계산시에 배제
APL loss(from Talyor expansion: 다양한 tasks 에 더 잘 동작)
APL 의 다항식 계수와, asymmetric focusing 사이의 파라미터 정교화
✅ Taylor Expansion for BCE
BCE loss 는 C개의 독립적인 분류 부문제로 구성.
BCE loss 의 부문제들을 최적화하기 위해, Taylor series expansion 를 BCE Loss 에 적용.
🤔테일러 expansion 이 뭐지? -> 정리 참고
➡️ -log(x) 를 expansion point 1로 하고 Taylor Series 로 나타낸 식은 다음과 같다.
➡️ -log(1-x) 를 expansion point 0으로 하고 Taylor Series 로 나타내면 다음과 같다.
< T-BCE >
✅ Asymmetric Polynomial Loss
샘플 자체의 불균형을 완화. loss +, - 에 따라 이 둘을 다루는 다른 scailing factors 감마 사용. -> 직접 positive, negative class 에 따른 gradient 비율을 조정할 수 있다. (다항식 지수에 적용, m+ 감마+ / m+ 감마-)
추가적으로 이렇게 비율을 조저아는 것 뿐만 아니라 작은 예측 확률을 가진 negative class 들은 버리는 방법을 이용했다.
다항식 계수에 대한 조작은 collectively 하게.
➡️ 모두 합치면, APL은 다음과 같다.
< Fig1 >
< Fig2 >
✅ Gradient Analysis
positive, negative 에 대한 gradients 를 분석해보자.
positive class는, 감마를 = 0 으로 설정할 때 gradient 는
와 같다.
negative class 의 경우
✅ Parameter Interaction Analysis