Semantic Feature Extraction for Generalized Zero-Shot Learning 제1부

이준석·2022년 12월 27일
0

https://arxiv.org/abs/2112.14478

Semantic Feature Extraction for Generalized Zero-Shot Learning

일반화 제로샷 학습을 위한 의미론적 특징 추출

Abstract

Generalized zero-shot learning (GZSL) is a technique to train a deep learning model to identify unseen classes using the attribute. In this paper, we put forth a new GZSL technique that improves the GZSL classification performance greatly.
put forth (에너지, 노력)을 내다
GZSL(Generalized Zero-shot Learning)은 속성을 사용하여 보이지 않는 클래스를 식별하도록 딥 러닝 모델을 훈련시키는 기술입니다. 본 논문에서는 GZSL 분류 성능을 크게 향상시키는 새로운 GZSL 기법을 제시한다.

Key idea of the proposed approach, henceforth referred to as semantic feature extraction-based GZSL (SE-GZSL), is to use the semantic feature containing only attribute-related information in learning the relationship between the image and the attribute.
henceforth 이후로
이하 SE-GZSL(semantic feature extraction-based GZSL)로 지칭되는 제안된 접근 방식의 핵심 아이디어는 이미지와 속성 간의 관계를 학습할 때 속성 관련 정보만 포함하는 의미적 특징을 사용하는 것입니다.

In doing so, we can remove the interference, if any, caused by the attribute-irrelevant information contained in the image feature.
그렇게 함으로써 이미지 특징에 포함된 속성과 무관한 정보로 인해 발생하는 간섭을 제거할 수 있습니다.

To train a network extracting the semantic feature, we present two novel loss functions, 1) mutual information-based loss to capture all the attribute-related information in the image feature and 2) similarity-based loss to remove unwanted attribute-irrelevant information. From extensive experiments using various datasets, we show that the proposed SE-GZSL technique outperforms conventional GZSL approaches by a large margin.
의미론적 특징을 추출하는 네트워크를 훈련하기 위해 우리는 두 가지 새로운 손실 함수, 1) 이미지 특징의 모든 속성 관련 정보를 캡처하는 상호 정보 기반 손실 및 2) 원하지 않는 속성과 관련 없는 정보를 제거하는 유사성 기반 손실을 제시합니다. 다양한 데이터 세트를 사용한 광범위한 실험을 통해 제안된 SE-GZSL 기법이 기존의 GZSL 접근법보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.

Introduction

Image classification is a long-standing yet important task with a wide range of applications such as autonomous driving, industrial automation, medical diagnosis, and biometric identification (Fujiyoshi, Hirakawa, and Yamashita 2019;
Ren, Hung, and Tan 2017; Ronneberger, Fischer, and Brox 2015; Sun et al. 2013).
이미지 분류는 자율 주행, 산업 자동화, 의료 진단 및 생체 인식과 같은 광범위한 응용 분야에서 오래 지속되었지만 중요한 작업입니다

In solving the task, supervised learning (SL) techniques have been popularly used for its superiority (Simonyan and Zisserman 2014; He et al. 2016).
Well-known drawback of SL is that a large number of training data are required for each and every class to be identified. Unfortunately, in many practical scenarios, it is difficult to collect training data for certain classes (e.g., endangered species and newly observed species such as variants of COVID-19).
과제를 해결하는 데 있어서 감독 학습(SL) 기법이 그 우수성 때문에 널리 사용되었습니다(Simonyan and Zisserman 2014; He et al. 2016).
SL의 잘 알려진 단점은 각각의 모든 클래스를 식별하기 위해 많은 수의 훈련 데이터가 필요하다는 것입니다.

Unfortunately, in many practical scenarios, it is difficult to collect training data for certain classes (e.g., endangered species and newly observed species such as variants of COVID-19). When there are unseen classes where training data is unavailable, SL-based models are biased towards the seen classes, impeding the identification of the unseen classes.
불행히도 많은 실제 시나리오에서 특정 클래스(예: 멸종 위기에 처한 종 및 COVID-19 변종과 같이 새로 관찰된 종)에 대한 훈련 데이터를 수집하기가 어렵습니다. 교육 데이터를 사용할 수 없는 보이지 않는 클래스가 있는 경우 SL 기반 모델은 보이는 클래스에 편향되어 보이지 않는 클래스의 식별을 방해합니다.


Recently, to overcome this drawback, a technique to train a classifier using manually annotated attributes (e.g., color, size, and shape; see Fig. 1) has been proposed (Lampert, Nickisch, and Harmeling 2009; Chao et al. 2016).
최근에는 이러한 단점을 극복하기 위해 수동으로 주석을 단 속성(예: 색상, 크기 및 모양)을 사용하여 분류기를 훈련시키는 기술이 제안되었다(Lampert, Nickisch 및 Harmeling 2009; Chao et al. 2016).

Key idea of this technique, dubbed as generalized zero-shot learning (GZSL), is to learn the relationship between the image and the attribute from seen classes and then use the trained model in the identification of unseen classes.
GZSL(Generalized Zero-shot Learning)이라고 불리는 이 기술의 핵심 아이디어는 보이는 클래스에서 이미지와 속성 사이의 관계를 학습한 다음 보이지 않는 클래스를 식별하는 데 훈련된 모델을 사용하는 것이다.

In (Akata et al. 2015), for example, an approach to identify unseen classes by measuring the compatibility between the image feature and attribute has been proposed. In (Mishra et al. 2018), a network synthesizing the image feature from the attribute has been employed to generate training data of unseen classes.
예를 들어, (Akata et al. 2015)에서는 이미지 특징과 속성 간의 호환성을 측정하여 보이지 않는 클래스를 식별하는 접근법이 제안되었다. (Mishra et al. 2018)에서는 속성에서 이미지 기능을 합성하는 네트워크를 사용하여 보이지 않는 클래스의 훈련 데이터를 생성했다.
In extracting the image feature, a network trained using the classification task (e.g., ResNet (He et al. 2016)) has been popularly used. A potential drawback of this extraction method is that the image feature might contain attribute-irrelevant information (e.g., human fingers in Fig. 1), disturbing the process of learning the relationship between the image and the attribute (Tong et al. 2019; Han, Fu, and Yang 2020; Li et al. 2021).
이미지 기능을 추출할 때 분류 작업(예: ResNet(He et al. 2016)을 사용하여 훈련된 네트워크가 널리 사용되었다. 이 추출 방법의 잠재적인 단점은 이미지 기능이 속성과 무관한 정보(예: 그림 1의 인간 손가락)를 포함할 수 있어 이미지와 속성 간의 관계를 학습하는 프로세스를 방해할 수 있다는 것이다(Tong et al. 2019; Han, Fu and Yang 2020; Li et al. 2021).


In this paper, we propose a new GZSL technique that removes the interference caused by the attribute-irrelevant information. Key idea of the proposed approach is to extract the semantic feature, feature containing the attributerelated information, from the image feature and then use it in learning the relationship between the image and the attribute. In extracting the semantic feature, we use a modified autoencoder consisting of two encoders, viz., semantic and residual encoders (see Fig. 2).
본 논문에서는 속성과 무관한 정보로 인한 간섭을 제거하는 새로운 GZSL 기법을 제안한다. 제안하는 접근 방식의 핵심 아이디어는 이미지 특징에서 속성 관련 정보를 포함하는 의미적 특징을 추출하여 이미지와 속성 간의 관계를 학습하는 데 사용하는 것입니다. 시맨틱 특징을 추출할 때 두 개의 인코더 즉, 시맨틱 및 잔차 인코더로 구성된 수정된 자동 인코더를 사용합니다(그림 2 참조).

In a nutshell, the semantic encoder captures all the attribute-related information in the image feature and the residual encoder catches the attributeirrelevant information.
간단히 말해서 시맨틱 인코더는 이미지 특징의 모든 속성 관련 정보를 캡처하고 잔차 인코더는 속성과 관련 없는 정보를 캡처합니다.

profile
인공지능 전문가가 될레요

0개의 댓글