Inspired by human cognitive competence, zero-shot learning (ZSL) was proposed to recognize new classes during learning by exploiting the intrinsic semantic relatedness between seen and unseen classes (Larochelle, Erhan, and Bengio 2008; Palatucci et al. 2009; Lampert, Nickisch, and Harmeling 2009).
cognitive 인식의 competence 능숙도, 능력 exploit 활용하다 이용하다 intrinsic 본질적인 relatedness 관련성
인간의 인지 능력에 영감을 받아, 제로샷 학습(ZSL)은 보이는 클래스와 보이지 않는 클래스 사이의 본질적인 의미적 관련성을 활용하여 학습 중에 새로운 클래스를 인식하도록 제안되었다(Larochelle, Erhan, Bengio 2008; Palatucci et al. 2009; Lampert, Nickisch 및 Harmeling 2009).
In ZSL, there are no training samples available for unseen classes in the test set, and the label spaces for the training set and test set are disjoint from each other.
disjoint 분리되다.
ZSL에서는 테스트 세트의 보이지 않는 클래스에 사용할 수 있는 훈련 샘플이 없으며, 훈련 세트와 테스트 세트의 레이블 공간은 서로 분리된다.
Thus, the key task for ZSL is to learn discriminative visual features for conducting effective visual-semantic interactions based on the semantic information (e.g., sentence embeddings (Reed et al. 2016), and attribute vectors (Lampert, Nickisch, and Harmeling 2014)), which are shared between the seen and unseen classes employed to support the knowledge transfer.
interaction 상호작용
따라서, ZSL에 대한 핵심 과제는 지식 전달을 지원하기 위해 사용되는 보이는 클래스와 보이지 않는 클래스 사이에서 공유되는 의미 정보 (예 : 문장 임베딩 (Reed et al. 2016) 및 속성 벡터 (Lampert, Nickisch, and Harmeling 2014) )에 기초하여 효과적인 시각적 의미 론적 상호 작용을 수행하기위한 차별적 인 시각적 특징을 배우는 것입니다.
According to their classification range, ZSL methods can be categorized into conventional ZSL (CZSL), which aims to predict unseen classes, and generalized ZSL (GZSL), which can predict both seen and unseen classes (Xian, Schiele, and Akata 2017).
분류 범위에 따라 ZSL 방법은 보이지 않는 클래스를 예측하는 것을 목표로 하는 기존 ZSL(CZSL)과 보이는 클래스와 보이지 않는 클래스를 모두 예측할 수 있는 일반화된 ZSL(GZSL)로 분류할 수 있습니다(Xian, Schiele, Akata 2017).
To enable visual-semantic interactions, early ZSL methods attempt to build an embedding between seen classes and their class semantic vectors, and then classify unseen classes by nearest neighbor search in the embedding space.
시각적 의미론적 상호작용을 가능하게 하기 위해 초기 ZSL 방법은 보이는 클래스와 해당 클래스 의미론적 벡터 사이에 임베딩을 구축한 다음 임베딩 공간에서 가장 가까운 이웃 검색에 의해 보이지 않는 클래스를 분류하려고 시도합니다.
Since the embedding is only learned by seen class samples, these embedding-based methods usually overfit to seen classes under the GZSL setting (known as the bias problem).
임베딩은 보이는 클래스 샘플에 의해서만 학습되기 때문에 이러한 임베딩 기반 방법은 일반적으로 GZSL 설정에서 본 클래스에 과적합됩니다(편향 문제로 알려짐).
To tackle this problem, many generative ZSL methods have been proposed to generate samples of unseen classes by leveraging generative models (e.g., variational autoencoders (VAEs) (Arora et al. 2018; Schönfeld et al. 2019; Chen et al. 2021b), generative adversarial nets (GANs) (Xian et al. 2018, 2019; Chen et al. 2021a), and generative flows (Shen, Qin, and Huang 2020)) for data augmentation.
이 문제를 해결하기 위해, 생성 모델 (예를 들어, 변형 오토인코더 (VAEs)을 활용하여 보이지 않는 클래스의 샘플을 생성하기 위해 많은 생성 ZSL 방법이 제안되었습니다 (Arora et al. 2018; Schönfeld et al. 2019; Chen et al. 2021b), 생성적 적의 그물 (GANs) (Xian et al. 2018, 2019; Chen et al. 2021a) 및 데이터 증강을 위한 생성 흐름(Shen, Qin, and Huang 2020)을 포함한다.
Thus the ZSL task is converted into a supervised classification problem.
convert 변환하다
따라서 ZSL 작업은 지도 분류 문제로 변환됩니다.

Figure 1: Motivation illustration. (a) Existing attentionbased ZSL methods simply learn region embeddings (e.g., the whole bird body), neglecting the transferability and discriminative attribute localization (e.g., the distinctive bird body parts) of visual features;
그림 1: 동기 부여 그림. (a) 기존의 주의 기반 ZSL 방법은 단순히 영역 임베딩(예: 새 몸 전체)을 학습하고 시각적 특징의 전달 가능성 및 식별 속성 위치 지정(예: 새의 고유한 부분)을 무시합니다.
(b) Our TransZero reduces the entangled relationships among region features to improve their transferability and localizes the object attributes to represent discriminative region features, enabling significant visual-semantic interaction.
(b) 당사의 TransZero는 영역 특징 간의 얽힌 관계를 줄여 전송 가능성을 개선하고 개체 속성을 지역화하여 식별 영역 특징을 나타내므로 상당한 시각적 의미 상호 작용을 가능하게 합니다.
Although these methods have achieved progressive improvement, they rely on global visual features which are insufficient for representing the fine-grained information of classes (e.g., red-legged of Kittiwake), since the discriminative information is contained in a few regions corresponding to a few attributes.
represent 표현하다 묘사하다
이러한 방법은 점진적인 개선을 이루었지만, 분류 정보가 소수에 해당하는 소수의 영역에 포함되어 있기 때문에 클래스(예: Kittiwake의 붉은 다리)의 세분화된 정보를 표현하기에는 불충분한 전역적 시각적 특징에 의존합니다. 속성.
Thus, the visual feature representations are limited, resulting in poor visual-semantic interactions.
따라서 시각적 기능 표현이 제한되어 시각적 의미 상호 작용이 좋지 않습니다.
More recently, some attention-based models (Xie et al. 2019, 2020; Zhu et al. 2019; Xu et al. 2020; Yu et al. 2018; Liu et al. 2019) have attempted to learn more discriminative region features with the guidance of the semantic information, as shown in Fig. 1(a).
attempt 시도하다 region 지역 guidance 안내, 유도
보다 최근에, 일부 주의 기반 모델 (Xie et al. 2019, 2020; Zhu et al. 2019; Xu et al. 2020; Yu et al. 2018; Liu et al. 2019)는 도 1(a)에 도시된 바와 같이 의미 정보의 안내를 통해 더 많은 차별적 영역 특징을 배우려고 시도하였다.
However, these methods are limited in:
i) They directly take the entangled region (grid) features for ZSL classification, which hinders the transferability of visual features from seen to unseen classes;
hinders 저해하다, 방해하다 entangle 얽힌
i) ZSL 분류를 위해 얽힌 영역(격자) 기능을 직접 사용하여 시각적 기능을 보이는 클래스에서 보이지 않는 클래스로 이전하는 것을 방해합니다.
ii) They simply learn region embeddings (e.g., the whole bird body), neglecting the importance of discriminative attribute localization (e.g., the distinctive bird body parts).
neglect 무시하다
ii) 그들은 단순히 지역 임베딩(예: 새 몸 전체)을 학습하고 구별 속성 위치 지정(예: 독특한 새 몸 부분)의 중요성을 무시합니다.
Thus, properly improving the transferability and localizing the object attributes for enabling significant visual-semantic interaction in ZSL has become very necessary.
따라서 ZSL에서 중요한 시각적-의미적 상호작용을 가능하게 하기 위해 적절한 전송 가능성을 개선하고 객체 속성을 현지화하는 것이 매우 필요하게 되었습니다.
To tackle the above challenges, in this paper, we propose an attribute-guided Transformer, termed TransZero, which reduces the entangled relationships among region features to improve their transferability and localizes the object attributes to represent discriminative region features in ZSL, as shown in Fig. 1(b).
위의 문제를 해결하기 위해 이 논문에서는 영역 특징 간의 얽힌 관계를 줄여 전송 가능성을 개선하고 ZSL에서 식별 영역 특징을 나타내기 위해 객체 속성을 지역화하는 TransZero라는 속성 기반 변환기를 제안합니다(그림 1 참조).
Specifically, TransZero consists of an attributed-guided Transformer (AGT) that learns locality-augmented visual features and a visual-semantic embedding network (VSEN) that conducts visual-semantic interactions.
특히, TransZero는 지역성 증강 시각적 특징을 학습하는 AGT(attributed-guided Transformer)와 시각적 의미 상호작용을 수행하는 VSEN(Visual-Semantic Embedding Network)으로 구성됩니다.
In AGT, we first take a feature augmentation encoder to i) alleviate the cross-dataset bias between ImageNet and ZSL benchmarks, and ii) reduce the entangled relative geometry relationships between different regions for improving the transferability from seen to unseen classes.
alleviate 완화하다
AGT에서 우리는 먼저 특징 증강 인코더를 사용하여 i) ImageNet과 ZSL 벤치마크 간의 교차 데이터 집합 편향을 완화하고 ii) 보이는 클래스에서 보이지 않는 클래스로의 전송 가능성을 개선하기 위해 서로 다른 영역 간의 얽힌 상대 기하학 관계를 줄입니다.
They are ignored by existing ZSL methods.
기존 ZSL 방법에서는 무시됩니다.
To learn locality-augmented visual features, we employ a visual-semantic decoder in AGT to localize the image regions most relevant to each attribute in a given image, under the guidance of semantic attribute information.
employ 고용하다
지역성 증강 시각적 특징을 배우기 위해 우리는 의미론적 속성 정보의 안내 하에 주어진 이미지의 각 속성과 가장 관련이 있는 이미지 영역을 지역화하기 위해 AGT에서 시각적 의미론적 디코더를 사용합니다.
Then, the locality-augmented visual features and semantic vectors are used to enable visual-semantic interaction in VSEN.
그런 다음, 지역 강화 시각적 특징과 의미 벡터를 사용하여 VSEN에서 시각적 의미 상호 작용을 가능하게 합니다.
Extensive experiments show that TransZero achieves the new state of the art on three ZSL benchmarks.
광범위한 실험을 통해 TransZero는 세 가지 ZSL 벤치마크에서 최신 기술을 달성했음을 보여줍니다.
The qualitative results also demonstrate that TransZero refines visual features and provides attribute-level localization.
qulaitative 점성적인
정성적 결과는 또한 TransZero가 시각적 기능을 개선하고 속성 수준의 현지화를 제공함을 보여줍니다.
The main contributions of this paper are summarized as follows:
We introduce a novel ZSL method, termed TransZero, which employs an attribute-guided Transformer to refine the visual features and learn the attribute localization for discriminative visual embedding representations.
속성 유도 변환기를 사용하여 시각적 기능을 개선하고 식별 가능한 시각적 임베딩 표현을 위한 속성 현지화를 학습하는 TransZero라는 새로운 ZSL 방법을 소개합니다.
To the best of our knowledge, TransZero is the first work extending the Transformer to the ZSL task.
우리가 아는 한, TransZero는 Transformer를 ZSL 작업으로 확장한 첫 번째 작업입니다.
We propose a feature augmentation encoder to i) alleviate the cross-dataset bias between ImageNet and ZSL benchmarks, and ii) reduce the entangled relative geometry relationships between different regions to improve the transferability from seen to unseen classes.
우리는 i) ImageNet과 ZSL 벤치마크 사이의 교차 데이터 세트 편향을 완화하고, ii) 서로 다른 영역 간의 얽힌 상대 지오메트리 관계를 줄여 보이는 클래스에서 보이지 않는 클래스로의 전송 가능성을 개선하기 위한 기능 증강 인코더를 제안한다.
They are ignored by existing ZSL methods.
기존 ZSL 방법에서는 무시됩니다.
Extensive experiments demonstrate that TransZero achieves the new state of the art on three ZSL benchmarks.
We further qualitatively show that our TransZero refines the visual features and accurately localizes finegrained parts for discriminative feature representations.
qualitatively 질적으로
우리는 또한 TransZero가 시각적 특징을 세분화하고 차별적 특징 표현을 위해 미세하게 배어 있는 부분을 정확하게 현지화한다는 것을 질적으로 보여준다.