Boosting Zero-shot Learning via Contrastive Optimization of Attribute Representations 제3부 method

이준석·2022년 7월 20일
0

Method

A. Problem setting

Zero-shot learning aims to recognize classes that have no labeled data in the training set.
제로샷 학습은 훈련 세트에 레이블이 지정된 데이터가 없는 클래스를 인식하는 것을 목표로 합니다.
We follow other embedding-based methods [23], [25], [26] to use the seen class semantics and their visual features to learn an embedding function during training.
우리는 다른 임베딩 기반 방법[23], [25], [26]을 따라 본 클래스 의미와 시각적 특징을 사용하여 훈련 중에 임베딩 기능을 학습합니다.
We denote by XsX^s and XuX^u the set of image visual features, YsY^s and YuY^uthe set of image class labels, for seen (s) and unseen (u) classes, respectively.
denote 나타내다
우리는 XsX^s'와 XuX^u로 이미지 시각적 기능 세트, YsY^sYuY^u는 각각 보이는 클래스와 보이지 않는 (u) 클래스에 대한 이미지 클래스 레이블 집합을 나타냅니다.

The training set for seen classes is represented as Ds={xis,yis}i=1NsD^s = { \lbrace x^s_i ,y^s_i \rbrace}^{N^s}_{i=1} of NsN^s elements and has MsM^s classes in total.
보이는 클래스에 대한 학습 세트는 NsN^s 요소의 Ds={xis,yis}i=1NsD^s = { \lbrace x^s_i ,y^s_i \rbrace}^{N^s}_{i=1}로 표시되며 총 MsM^s 클래스가 있습니다.

The test set for unseen classes is similarly represented as Du={xiu,yiu}i=1NuD^u = { \lbrace x^u_i ,y^u_i \rbrace}^{N^u}_{i=1} for NuN^u elements and has MuM^u classes in total.
보이지 않는 클래스에 대한 테스트 세트는 NuN^u 요소에 대해 Du={xiu,yiu}i=1NuD^u = { \lbrace x^u_i ,y^u_i \rbrace}^{N^u}_{i=1}로 유사하게 표시되며 총 MuM^u 클래스가 있습니다.

There are in total K object attributes shared between seen and unseen classes while there is no overlap between 'Ds' and Du.
DsD^sDuD^u 사이에는 겹치지 않는 반면 보이는 클래스와 보이지 않는 클래스 간에 공유되는 총 K 객체 속성이 있습니다.

In the conventional ZSL, the task is to recognize only unseen classes.
기존 ZSL에서 작업은 보이지 않는 클래스만 인식하는 것입니다.

In the more realistic GZSL, the task is to recognize both the seen and unseen classes.
보다 현실적인 GZSL에서 작업은 보이는 클래스와 보이지 않는 클래스를 모두 인식하는 것입니다.

Unless specified, below we omit superscript s or u.
specified 명시하다, omit 생략하다
명시되지 않는 한 아래에서는 's 또는 u'를 생략합니다.


Fig. 2. Framework of our CoAR-ZSL.
Looking from the right, the prototype module takes the input of class and attribute semantics and outputs the class and attribute prototypes.
오른쪽에서 보면 프로토타입 모듈은 클래스 및 속성 의미 체계의 입력을 받아 클래스 및 속성 프로토타입을 출력합니다.
Looking from the left, for an input image, class- and attribute-level features will be extracted separately to contrastively optimize with corresponding class and attribute prototypes (Lattp\mathcal{L}_{attp} ).
separately 각각, contrastively 대조적으로
왼쪽에서 보면 입력 이미지의 경우 클래스 및 속성 수준 피쳐가 별도로 추출되어 해당 클래스 및 속성 프로토타입(Lattp\mathcal{L}_{attp})과 대조적으로 최적화된다.
Another hard example-based contrastive loss (Lattp\mathcal{L}_{attp} ) is also included to reinforce the attribute representation learning; it is not specified in the figure, see Sec. III-D3 for more details.
또 다른 하드 예제 기반 대조 손실 (Lattp\mathcal{L}_{attp})은 속성 표현 학습을 강화하기 위해 또한 포함됩니다. 그림에 명시되어 있지 않으므로 자세한 내용은 Sec. III-D3을 참조하십시오.


B. Overview

The overview of our proposed new framework CoAR-ZSL is shown in Fig. 2: two main data streams flow into it from the right and left side for prototype generation and feature embedding, respectively.
제안된 새로운 프레임워크 CoAR-ZSL의 개요는 그림 2에 나와 있습니다: 프로토타입 생성 및 기능 임베딩을 위해 각각 오른쪽과 왼쪽에서 두 개의 주요 데이터 스트림이 흐릅니다.
For feature embedding, two alternative backbones, i.e. CNN-based (default) and Transformer-based, are presented.
기능 임베딩의 경우 두 가지 대체 백본, 즉 CNN 기반(기본값) 및 Transformer 기반이 제공됩니다.


1) Prototype generation: Looking from the right, we design a class and attribute prototype generation module which takes the input of class and attribute semantics, CS={csi}i=1MCS = { \lbrace {cs_i} \rbrace }^M_{i=1} and AS={asj}j=1KAS = { \lbrace{ as_j} \rbrace }^K_{j=1}, and outputs class and attribute prototypes, CP={cpi}i=1MCP = { \lbrace {cp_i} \rbrace }^M_{i=1} and AP={apj}i=1KAP = { \lbrace {ap_j} \rbrace }^K_{i=1} , respectively.
1) 프로토 타입 생성 : 오른쪽에서 보면 클래스 및 속성 의미 체계 인 CS={csi}i=1MCS = { \lbrace {cs_i} \rbrace }^M_{i=1}AS={asj}j=1KAS = { \lbrace{ as_j} \rbrace }^K_{j=1}의 입력을 받아 클래스 및 속성 프로토 타입 생성 모듈을 설계하고 클래스 및 속성 프로토 타입 인 CP={cpi}i=1MCP = { \lbrace {cp_i} \rbrace }^M_{i=1}AP={apj}i=1KAP = { \lbrace {ap_j} \rbrace }^K_{i=1}을 출력합니다. 각각.


2) Class representation learning: Given an input image x from the left side, we can extract its class-level global feature cf directly from the backbone.
2) 클래스 표현 학습: 왼쪽에서 입력 이미지 x가 주어지면 백본에서 직접 클래스 수준 전역 기능 cf 를 추출할 수 있습니다.
Its cosine similarity is computed against CP and optimized via the cross entropy loss for classification (Lcls\mathcal L_{cls}).
코사인 유사성은 CP에 대해 계산되고 분류를 위한 교차 엔트로피 손실(Lcls\mathcal L_{cls})을 통해 최적화됩니다.


3) Attribute representation learning: Given the image x, we can extract its attribute-level local features AF={afi}i=1KAF = {\lbrace af_i \rbrace}^K_{i=1} via the attention-based attribute localization scheme, which produces an attention tensor AM incorporating a set of attention maps, which are used as soft masks to localize different attribute-related regions in x and extract AF from them.
incorporating 통합
3) 속성 표현 학습: 이미지 x가 주어지면 어텐션 기반 속성 현지화 체계를 통해 속성 레벨 로컬 특징 AF={afi}i=1KAF = {\lbrace af_i \rbrace}^K_{i=1}을 추출할 수 있습니다. 이는 집합을 통합하는 어텐션 텐서 AM을 생성합니다. x에서 서로 다른 속성 관련 영역을 지역화하고 그로부터 AF를 추출하기 위해 소프트 마스크로 사용되는 어텐션 맵.

For each af in AF, it is optimized against the corresponding ap using a contrastive triplet loss (Lattp\mathcal L_{attp}).
AF의 각 af에 대해 대조 삼중항 손실(Lattp\mathcal L_{attp})을 사용하여 해당 ap에 대해 최적화됩니다.

For learning better af across images, another hard example-based contrastive optimization loss (Lattf\mathcal L_{attf}) is also devised to reinforce the similarity of attribute-level features corresponding to the same attribute.
이미지 전체에서 더 나은 af를 학습하기 위해 동일한 속성에 해당하는 속성 수준 기능의 유사성을 강화하기 위해 또 다른 하드 예제 기반 대조 최적화 손실(Lattf\mathcal L_{attf})도 고안되었습니다.

Finally, to focus AMAM on the attribute-related regions, we maxpool it to obtain a semantic vector csecs^e and minimize its L2L2 distance to the ground truth csgcs^g (Lsem\mathcal L_{sem} ).
마지막으로, 속성 관련 영역에 AM을 집중하기 위해 의미 벡터 csecs^e를 얻기 위해 최대 풀링하고 지상 진실 csgcs^g (Lsem\mathcal L_{sem} )까지의 L2 거리를 최소화합니다.

profile
인공지능 전문가가 될레요

0개의 댓글