Boosting Zero-shot Learning via Contrastive Optimization of Attribute Representations 제4-2부 method

이준석·2022년 7월 27일
0

B. Contrastive learning

The goal of contrastive learning is to learn an embedding space in which similar samples are pushed close and dissimilar ones are pulled away [43].
push close 가까이 끌어오다 pull away 멀리 밀어내다
대조 학습의 목표는 유사한 샘플을 가까이 밀어내고 다른 샘플을 끌어내는 임베딩 공간을 배우는 것이다[43].

It can be applied to either labeled [44] or unlabeled data [10].
레이블이 지정된 [44] 또는 레이블이 지정되지 않은 데이터 [10]에 적용할 수 있습니다.

The latter is getting very popular in the self-supervised learning, where the essential idea is to enforce the embedding of the same sample of multiple views to be similar.
enforce 강제하다. 집행하다. 실시하다. 하다
후자는 자기 지도 학습(self-supervised learning)에서 매우 인기를 얻고 있습니다. 여기서 필수적인 아이디어는 여러 뷰의 동일한 샘플을 유사하게 임베딩하는 것입니다.

Contrastive learning is recently used in ZSL by [45].
대조 학습은 최근 [45]에 의해 ZSL에서 사용됩니다.

It introduces class-level and instance-level contrastive losses into a generative-based model.
생성 기반 모델에 클래스 수준 및 인스턴스 수준 대조 손실을 도입합니다.

The contrastive loss in our work is applied to attribute-level features in an embedding-based model.
우리 작업의 대조 손실은 임베딩 기반 모델의 속성 수준 기능에 적용됩니다.

Unlike [45] using all the positive/negative samples for each anchor to construct the loss, we introduce a new hard example-based contrastive loss which uses only hard attribute-level features based on their attention peaks and mutual distances.
peak 절정, 정점, 최고조 mutual 상호간의, 서로의
손실을 구성하기 위해 각 앵커에 대한 모든 긍정/음수 샘플을 사용하는 것과 달리, 주의 피크 및 상호 거리를 기반으로 하드 속성 수준 기능만 사용하는 새로운 하드 예제 기반 대조 손실을 소개합니다.

In addition, our loss forms are also different.
또한 손실 형태도 다릅니다.


C. Transformers

Compared to the CNN-based attention architecture, the self-attention architecture in transformers has demonstrated to be superior in many natural language processing (NLP) tasks [46]–[48].
CNN 기반 어텐션 아키텍처와 비교하여 트랜스포머의 셀프 어텐션 아키텍처는 많은 자연어 처리(NLP) 작업에서 우수한 것으로 입증되었습니다[46]-[48].

Because of its huge success in NLP, many computer vision researchers also start using it.
NLP에서 큰 성공을 거두었기 때문에 많은 컴퓨터 비전 연구자들도 NLP를 사용하기 시작했습니다.

One successful example is the vision transformer (ViT): its essential idea is to slice the image into a sequence of patches and treat their embeddings as patch tokens; an extra classification token is also added to the transformer to generate global features for image classification.
한 가지 성공적인 예는 비전 트랜스포머 (ViT)입니다 : 그 필수적인 아이디어는 이미지를 일련의 패치로 슬라이스하고 임베딩을 패치 토큰으로 처리하는 것입니다. 또한 이미지 분류를 위한 전역 기능을 생성하기 위해 변압기에 추가 분류 토큰이 추가됩니다.

A recent work, ViT-ZSL [50], has tried to adapt the ViT into ZSL as a backbone for feature extraction.
최근 연구인 ViT-ZSL[50]은 ViT를 특징 추출을 위한 백본으로 ZSL에 적용하려고 시도했습니다.

[50] replaces the classification head in ViT with a FC layer to project the global feature into the semantic space for ZSL.
[50]은 ViT의 분류 헤드를 FC 레이어로 대체하여 ZSL의 의미 공간에 전역 기능을 투영합니다.

We instead use the global feature directly in the visual space.
대신 시각적 공간에서 직접 전역 기능을 사용합니다.

Also, the patch embedding in ViT is dropped in [50], while we use it in an attention-based attribute localization scheme for attribute-level feature embedding.
또한 ViT의 패치 임베딩은 [50]에서 삭제되지만 속성 수준 기능 임베딩을 위한 주의 기반 속성 현지화 체계에서 사용합니다.

Overall, we introduce a different way to adapt ViT as a backbone in our work.
전반적으로 ViT를 작업의 백본으로 적용하는 다른 방법을 소개합니다.

profile
인공지능 전문가가 될레요

0개의 댓글