Hierarchical classification
는 분류 트리를 예측하는 태스크: 각 레벨에서의 accuracy와 레벨 사이의 consistency 모두 중요함fine-grained recognition
은 fine image segmentation
을, coarse-grained recognition
은 coarse image segmentation
을 필요로 할것이라는 직관이 있다. 이에, fine-to-coarse
internal visual parsing을 수행하는 CAST를 확장해, 하나의 모델로 hierarchical recognition이 가능하다.Tree-path KL Divergence Loss
제안: 레벨 사이의 consistence를 enforceFPA
(Full-Path Accuracy) metric 제안 - accuracy와 consisteny 모두 측정inconsistency among hierarchy classifiers
: level에 따라 이미지에서 classifier가 attend 해야하는 영역이 다르기 때문
Multi-granularity label framework
제안Coarse-level label prediction exacerbates fine-grained feature learning, yet fine-level feature betters the learning of coarse-level classifier.
따라서 (1) level-specific classifier를 각각 두어 coarse와 fine을 distengle 하고 (2) finer-grained features가 coarser-grained prediction에 관여하게 만듬.
결과는 두 태스크 모두에서 기존 방법에 결합해서 sota.. 하지만 multi-label과 FGVC 성능 차이가 왜 이렇게 많이 나는지는 미스테리... image resolution 문제인가..?? 정답
The global and general features are also helpful in fine-grained prediction and are utilized in many existing method.
TICE
metric (Tree-based Inconsistency Error Rate) 제안wAP
제안fine-to-coarse
로 각각 예측 하도록 함.Aircraft
, CUB
은 fine-grained에서 유명. stanford Car
은 너무 쉬운 태스크가 되서 뺐나? 생각중CUB
은 원래 2-level인데, Flamingo 논문에서 3-level로 재정의함 (38)BREED
로, 상대적으로 앞 두 개 보다는 large한 데이터셋에서 보여주려고 가져온듯. wordnet 기반 hierarchylevel accuracy
: level별로 각각 accuracywAP
: L개의 level이 있을때, 단순히 1/L로 level accuracy를 평균 내는게 아니라, 클래스 개수에 비례해서 weighted average accuracy를 구한 값. 즉, finer level이 클래스 개수가 더 많으니 그 만큼 accuracy를 많이 반영함. 꽤 괜찮은 메트릭인듯TICE
: prediction이 pre-defined tree에서 가능한 경로인지를 재는 메트릭으로, consistency만 재는 메트릭임. 그러나 아래의 FPA가 있는한 사실상 필요 없는 지표에 가까움. inconsistent ratio를 재므로, 0에 가까울수록 좋은 지표.FPA
: 이 논문에서 새로 제안한 메트릭. 그냥 모든 레벨에서 제대로 맞췄으면 맞다고 측정해주는, 사실상 이 태스크를 가장 잘 설명하는 하나의 메트릭인듯.