VIT_ZSL 논문리딩 1

이준석·2022년 6월 22일
0

VIT_ZSL

목록 보기
9/9

논문링크

Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning

Abstract

  • Zero-Shot Learning(ZSL) aims to recognize unseen object classes, which are not observed during the training phase.
    제로샷 학습(ZSL)은 훈련 단계에서 관찰되지 않는 보이지 않는 객체 클래스를 인식하는 것을 목표로 한다.

  • The existing body of works on ZSL mostly relies on pretrained visual features and lacks the explicit attribute localisation mechanism on images.
    ZSL에 대한 기존 연구는 대부분 사전 훈련된 시각적 기능에 의존하며 이미지에 대한 명시적 속성 현지화 메커니즘이 없다.

  • In this work, we propose an attention-based model in the problem settings of ZSL to learn attributes useful for unseen calss recognition.
    본 연구에서는 보이지 않는 클래스 인식에 유용한 속성을 학습하기 위해 ZSL의 문제 설정에서 주의 기반 모델을 제안한다.

  • Our method uses an attention mechanism adapted from Vision Transformer to capture and laern discriminative attributes by splitting images into small patches.
    우리의 방법은 Vision Transformer에서 채택된 주의 메커니즘을 사용하여 이미지를 작은 패치로 분할하여 차별적 속성을 포착하고 학습한다.

  • We conduct experiments on three popular ZSL benchmarks (i.e., AWA2, CUB and SUN) and set new state-of-hte-art harmonic mean results on all the three datasets, which illustrate the effectiveness of our proposed method.
    우리는 세 가지 인기 있는 ZSL 벤치마크(즉, AWA2, CUB 및 SUN)에 대한 실험을 수행하고 세 가지 데이터 세트 모두에 대해 새로운 최첨단 조화 평균 결과를 설정하여 제안된 방법의 효율성을 보여줍니다.

Zero Shot learning

  • ZSL is employed to bridge the gap between seen and unseen classes using semantic information, which is done by computing similarity function between visual features and previously learned knowledge[Romera-Paredes and Torr, 2015].
    ZSL은 시각적 특징과 이전에 학습된 지식 간의 유사성 함수를 계산하여 수행되는 의미론적 정보를 사용하여 보이는 클래스와 보이지 않는 클래스 간의 격차를 메우기 위해 사용됩니다[Romera-Paredes and Torr, 2015].

  • Various approaches address the ZSL problem by learning probabilistic attribute classifiers to predict class labels [Lampert et al., 2009, Norouzi et al., 2014] and by learning linear [Frome et al., 2013, Akata et al., 2015, Akata et al., 2016], and non-linear [Xian et al., 2016] compatibility function associating image features and semantic information.
    다양한 접근 방식은 클래스 레이블을 예측하기 위해 확률적 속성 분류기를 학습하고[Lampert et al., 2009, Norouzi et al., 2014] 선형 학습[Frome et al., 2013, Akata et al., 2015, Akata et al., 2016] 및 이미지 기능과 의미 정보를 연결하는 비선형 [Xian et al., 2016] 호환성 함수.

  • Recently proposed generative models synthesise visual features for the unseen classes [Xian et al., 2018, Schönfeld et al., 2019].
    최근에 제안된 생성 모델은 보이지 않는 클래스에 대한 시각적 특징을 합성한다[Xian et al., 2018, Schönfeld et al., 2019].

  • Although those models achieve better performances compared to classical models, they rely on features of trained CNNs.
    이러한 모델은 클래식 모델에 비해 더 나은 성능을 달성하지만 훈련된 CNN의 기능에 의존한다.

  • Recently, attention mechanism is adapted in ZSL to integrate discriminative local and global visual features.
    최근에는 ZSL에서 주의 메커니즘을 적용하여 차별적인 로컬 및 글로벌 시각적 기능을 통합한다.

  • Among them, S 2 GA [Yu et al., 2018] and AREN [Xie et al., 2019] use an attention-based network with two branches to guide the visual features to generate discriminative regions of objects.
    그 중 S 2 GA[Yu et al., 2018] 및 AREN[Xie et al., 2019]은 시각적 특징을 안내하여 물체의 식별 영역을 생성하는 두 가지 분기가 있는 주의 기반 네트워크를 사용합니다.

Vision Transformer

  • Self-attention-based architectures, especially Transformer [Vaswani et al., 2017] has shown major success for various Natural Language Processing (NLP) [Brown et al., 2020] as well as for Computer Vision tasks [Alamri et al., 2021, Dosovitskiy et al., 2021]; the reader is referred to [Khan et al., 2021] for further reading on Vision Transformer based literature.
    Self-attention-based, 특히 Transformer[Vaswani et al., 2017]는 다양한 자연어 처리(NLP)[Brown et al., 2020]와 Computer Vision 작업[Alamri et al., 2021, Dosovitskiy et al., 2021]; 독자는 Vision Transformer 기반 문헌에 대한 추가 읽기를 위해 [Khan et al., 2021]을 참조하십시오.

  • Specifically, CaiT [Touvron et al., 2021] introduces deeper transformer networks, and Swin Transformer [Liu et al., 2021] proposes a hierarchical Transformer, where the representation is computed using self-attention via shifted windows.
    구체적으로, CaiT[Touvron et al., 2021]은 더 깊은 변환기 네트워크를 소개하고 Swin Transformer[Liu et al., 2021]는 계층적 변환기를 제안합니다. 여기에서 표현은 이동된 창을 통해 self-attention을 사용하여 계산됩니다.

  • In addition, TNT [Han et al., 2021] proposes transformer-backbone method modelling not only the patch-level features but also the pixel-level representations. CrossViT [Chen et al., 2021] shows how dual-branch Transformer combining different sized image patches produce stronger image features.
    또한 TNT[Han et al., 2021]는 패치 수준의 특징뿐만 아니라 픽셀 수준의 표현도 모델링하는 변환기-백본 방법을 제안합니다. CrossViT[Chen et al., 2021]은 서로 다른 크기의 이미지 패치를 결합하는 이중 분기 Transformer가 더 강력한 이미지 기능을 생성하는 방법을 보여줍니다.

  • Since the applicability of transformer-based models is growing, we aim to expand and judge its capability for GZSL tasks' to the best of our knowledge, this is still unexplored.
    변압기 기반 모델의 적용 가능성이 증가하고 있기 때문에 GZSL 작업에 대한 기능을 확장하고 판단하는 것을 목표로 합니다. 우리가 아는 한, 이것은 아직 탐구되지 않았습니다.

  • Therefore, different from the existing works, we employ VIT to map the visual information to the semantic space, benefiting from the great performance of multi-head self-attention to learn class-level attributes.
    따라서 기존 작업과 달리 ViT를 사용하여 시각적 정보를 의미 공간에 매핑하여 클래스 수준의 속성을 학습하는 멀티 헤드 자기주의의 뛰어난 성능을 활용합니다.

profile
인공지능 전문가가 될레요

0개의 댓글