Hierarchical classification는 분류 트리를 예측하는 태스크: 각 레벨에서의 accuracy와 레벨 사이의 consistency 모두 중요함fine-grained recognition은 fine image segmentation을, coarse-grained recognition은 coarse image segmentation을 필요로 할것이라는 직관이 있다. 이에, fine-to-coarse internal visual parsing을 수행하는 CAST를 확장해, 하나의 모델로 hierarchical recognition이 가능하다.Tree-path KL Divergence Loss 제안: 레벨 사이의 consistence를 enforceFPA (Full-Path Accuracy) metric 제안 - accuracy와 consisteny 모두 측정inconsistency among hierarchy classifiers: level에 따라 이미지에서 classifier가 attend 해야하는 영역이 다르기 때문
Multi-granularity label framework 제안Coarse-level label prediction exacerbates fine-grained feature learning, yet fine-level feature betters the learning of coarse-level classifier.

따라서 (1) level-specific classifier를 각각 두어 coarse와 fine을 distengle 하고 (2) finer-grained features가 coarser-grained prediction에 관여하게 만듬.

결과는 두 태스크 모두에서 기존 방법에 결합해서 sota.. 하지만 multi-label과 FGVC 성능 차이가 왜 이렇게 많이 나는지는 미스테리... image resolution 문제인가..?? 정답



The global and general features are also helpful in fine-grained prediction and are utilized in many existing method.
TICE metric (Tree-based Inconsistency Error Rate) 제안

wAP 제안

fine-to-coarse로 각각 예측 하도록 함.

Aircraft, CUB은 fine-grained에서 유명. stanford Car은 너무 쉬운 태스크가 되서 뺐나? 생각중CUB은 원래 2-level인데, Flamingo 논문에서 3-level로 재정의함 (38)BREED로, 상대적으로 앞 두 개 보다는 large한 데이터셋에서 보여주려고 가져온듯. wordnet 기반 hierarchylevel accuracy: level별로 각각 accuracywAP: L개의 level이 있을때, 단순히 1/L로 level accuracy를 평균 내는게 아니라, 클래스 개수에 비례해서 weighted average accuracy를 구한 값. 즉, finer level이 클래스 개수가 더 많으니 그 만큼 accuracy를 많이 반영함. 꽤 괜찮은 메트릭인듯TICE: prediction이 pre-defined tree에서 가능한 경로인지를 재는 메트릭으로, consistency만 재는 메트릭임. 그러나 아래의 FPA가 있는한 사실상 필요 없는 지표에 가까움. inconsistent ratio를 재므로, 0에 가까울수록 좋은 지표.FPA: 이 논문에서 새로 제안한 메트릭. 그냥 모든 레벨에서 제대로 맞췄으면 맞다고 측정해주는, 사실상 이 태스크를 가장 잘 설명하는 하나의 메트릭인듯.




