MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning 제2-2부

이준석·2022년 8월 4일
0

As shown in Fig. 1, an unseen sample shares different partial information with a set of seen samples, and this partial information is represented as the abundant knowledge of semantic attributes (e.g., “bill color yellow”, “leg color red”).
그림 1과 같이 보이지 않는 샘플은 본 샘플의 집합과 다른 부분 정보를 공유하며 이 부분 정보는 의미론적 속성(예: "bill color yellow", "leg color red")에 대한 풍부한 지식으로 표현됩니다.

Thus, the key challenge of ZSL is to infer the latent semantic knowledge between visual and attribute features on seen classes, and thus allowing desirable knowledge transfer to unseen classes.
따라서 ZSL의 주요 과제는 보이는 클래스의 시각적 기능과 속성 기능 사이의 잠재적 의미 지식을 추론하여 보이지 않는 클래스에 바람직한 지식을 전달할 수 있도록 하는 것입니다.

Recently, some attentionbased ZSL methods [5, 25, 46–48, 54] leverage attribute descriptions as guidance to discover discriminative part/finegrained features, enabling to match the semantic representations more accurately.
최근 몇 가지 주의 기반 ZSL 방법[5, 25, 46–48, 54]은 속성 설명을 지침으로 활용하여 구별되는 부분/세세한 기능을 발견하여 의미론적 표현을 보다 정확하게 일치시킬 수 있습니다.

Unfortunately, they simply utilize unidirectional attention, which only focuses on limited semantic alignments between visual and attribute features without any further sequential learning.
불행히도, 그들은 단순히 단방향 주의를 활용하는데, 이는 더 이상의 순차적 학습 없이 시각적 기능과 속성 기능 간의 제한된 의미적 정렬에만 초점을 맞춥니다.

As such, properly discovering the intrinsic and more sufficient semantic representations (e.g., attribute semantics) between visual and attribute features for knowledge transfer of ZSL is of great importance.
따라서 ZSL의 지식 전달을 위해 시각적 특성과 속성 특성 간의 본질적이고 보다 충분한 의미론적 표현(예: 속성 의미론)을 적절하게 발견하는 것이 매우 중요합니다.


In light of the above observation, we propose a Mutually Semantic Distillation Network (MSDN) for ZSL, as shown in Fig2(d), to explore the intrinsic semantic knowledge between visual and attribute features.
in light of the above 위의 상황을 비추어
위의 관찰에 비추어 우리는 그림 2(d)와 같이 시각적 기능과 속성 기능 간의 본질적 의미론적 지식을 탐색하기 위해 ZSL용 MSDN(Mutually Semantic Distillation Network)을 제안합니다.

MSDN consists of an attribute→visual attention sub-net, which learns attributebased visual features, and a visual→attribute attention subnet, which learns visual-based attribute features.
MSDN은 속성 기반의 시각적 특징을 학습하는 속성→시각적 주의 서브넷과 시각적 기반 속성의 특징을 학습하는 시각적→속성 주의 서브넷으로 구성됩니다.

These two mutual attention sub-nets act as a teacher-student network for guiding each other to learn collaboratively and teaching each other throughout the training process.
이 두 개의 상호 관심 서브넷은 교육 과정 전반에 걸쳐 협력적으로 학습하고 서로를 가르칠 수 있도록 서로를 안내하는 교사-학생 네트워크 역할을 합니다.

As such, MSDN can explore the most matched attribute-based visual features and visual-based attribute features, enabling to effectively distill the intrinsic semantic representations for desirable knowledge transfer from seen to unseen classes (Fig. 1).
explore 탐색하다, 탐험하다
이와 같이 MSDN은 가장 일치하는 속성 기반 시각적 특징과 시각적 기반 특성 특징을 탐색할 수 있어 보이는 클래스에서 보이지 않는 클래스로 바람직한 지식 전달을 위한 본질적 의미 표현을 효과적으로 증류할 수 있다(그림 1).

Specifically, each attention sub-net is trained with an attribute-based cross-entropy loss with self-calibration [5, 14, 25, 48, 54].
특히, 각 관심 서브넷은 자체 보정을 통해 속성 기반 교차 엔트로피 손실로 훈련됩니다[5, 14, 25, 48, 54].

To encourage mutual learning between the attribute→visual attention sub-net and visual→attribute attention sub-net, we further introduce a semantic distillation loss that aligns each other’s class posterior probabilities.
posterior 사후
속성 → 시각적 주의 서브넷과 시각적 → 속성 주의 서브넷 간의 상호 학습을 장려하기 위해 서로의 클래스 사후 확률을 정렬하는 의미적 증류 손실을 추가로 도입합니다.

The quantitative and qualitative results well demonstrate the superiority and great potential of MSDN.
quantitative 양적 qualitative 질적
양적 및 질적 결과는 MSDN의 우수성과 잠재력을 잘 보여줍니다.


Our contributions are summarized as: i) We propose a Mutually Semantic Distillation Network (MSDN), orthogonal to existing ZSL methods, which distills the intrinsic semantic representations for effective knowledge transfer from seen to unseen classes for ZSL.
distill 증류하다 existing 기존의
우리의 기여는 다음과 같이 요약됩니다. i) 기존 ZSL 방법과 직교하는 MSDN(Mutually Semantic Distillation Network)을 제안합니다. 이 네트워크는 ZSL에 대해 보이는 클래스에서 보이지 않는 클래스로의 효과적인 지식 전송을 위해 본질적인 의미론적 표현을 증류합니다.

ii) We introduce a semantic distillation loss to enable mutual learning between the attribute→visual attention sub-net and visual→attribute attention sub-net in MSDN, encouraging them to learn attribute-based visual features and visual-based attribute features by distilling the intrinsic semantic knowledge for semantic embedding representations.
ii) MSDN에서 속성 → 시각적 주의 서브넷과 시각적 → 속성 주의 서브넷 간의 상호 학습을 가능하게 하는 의미적 증류 손실을 도입하여 속성 기반 시각적 특징과 시각적 기반 속성 특징을 학습하도록 권장합니다. 시맨틱 임베딩 표현에 대한 본질적인 의미론적 지식.

iii) We conduct extensive experiments to show that our MSDN achieves significant performance gains over the counterparts on three benchmarks, i.e., CUB [42], SUN [30] and AWA2 [44].
iii) 우리는 MSDN이 CUB[42], SUN[30] 및 AWA2[44]의 세 가지 벤치마크에서 상당한 성능 향상을 달성한다는 것을 보여주기 위해 광범위한 실험을 수행합니다.

profile
인공지능 전문가가 될레요

0개의 댓글