Zero-Shot Learning via Semantic Similarity Embedding 제1부

이준석·2022년 8월 10일
0

논문 : https://openaccess.thecvf.com/content_iccv_2015/papers/Zhang_Zero-Shot_Learning_via_ICCV_2015_paper.pdf

Abstract

In this paper we consider a version of the zero-shot learning problem where seen class source and target domain data are provided.
본 논문에서는 본 클래스 소스 및 대상 도메인 데이터가 제공되는 제로샷 학습 문제의 버전을 고려합니다.

The goal during test-time is to accurately predict the class label of an unseen target domain instance based on revealed source domain side information (e.g. attributes) for unseen classes.
reveal 드러난
테스트 시간 동안의 목표는 보이지 않는 클래스에 대한 공개된 소스 도메인 부가 정보(예: 속성)를 기반으로 보이지 않는 대상 도메인 인스턴스의 클래스 레이블을 정확하게 예측하는 것입니다.

Our method is based on viewing each source or target data as a mixture of seen class proportions and we postulate that the mixture patterns have to be similar if the two instances belong to the same unseen class.
proportions 비율
우리의 방법은 각 소스 또는 대상 데이터를 보이는 클래스 비율의 혼합으로 보는 것을 기반으로 하며 두 인스턴스가 동일한 보이지 않는 클래스에 속하는 경우 혼합 패턴이 유사해야 한다고 가정합니다.

This perspective leads us to learning source/target embedding functions that map an arbitrary source/target domain data into a same semantic space where similarity can be readily measured.
이 관점은 유사성을 쉽게 측정할 수 있는 동일한 의미 공간으로 임의의 소스/타겟 도메인 데이터를 매핑하는 소스/타겟 임베딩 기능을 학습하도록 이끕니다.

We develop a max-margin framework to learn these similarity functions and jointly optimize parameters by means of cross validation.
우리는 이러한 유사성 함수를 학습하고 교차 검증을 통해 매개 변수를 공동으로 최적화하기 위해 최대 마진 프레임워크를 개발한다.

Our test results are compelling, leading to significant improvement in terms of accuracy on most benchmark datasets for zero-shot recognition.
우리의 테스트 결과는 압도적이어서 제로샷 인식을 위한 대부분의 벤치마크 데이터 세트에서 정확도 측면에서 상당한 개선으로 이어졌습니다.

Conclusion

We proposed learning a semantic similarity embedding (SSE) method for zero-shot recognition.

We label the semantic meanings using seen classes, and project all the source domain attribute vectors onto the simplex in SSE space, so that each class can be represented as a probabilistic mixture of seen classes.
본 클래스를 사용하여 의미론적 의미에 레이블을 지정하고 모든 소스 도메인 속성 벡터를 SSE 공간의 심플렉스에 투영하여 각 클래스가 본 클래스의 확률적 혼합으로 표시될 수 있도록 합니다.

Then we learn similarity functions to embed target domain data into the same semantic space as source domain, so that not only the empirical mean embeddings of the seen class data distributions are aligned with their corresponding source domain embeddings, but also the data instance itself can be classified correctly.
그런 다음 대상 도메인 데이터를 소스 도메인과 동일한 의미 공간에 포함시키는 유사성 함수를 학습하여, 보이는 클래스 데이터 분포의 경험적 평균 임베딩이 해당 소스 도메인 임베딩과 정렬될 뿐만 아니라 데이터 인스턴스 자체도 올바르게 분류될 수 있다.

We propose learning two variants using intersection function and rectified linear unit (ReLU).
rectified 정류
우리는 교차 함수와 정류 선형 단위(ReLU)를 사용하여 두 가지 변형을 학습할 것을 제안한다.

Our method on five benchmark datasets including the large-scale SUN Attribute dataset significantly outperforms other state-of-art methods.
대규모 SUN Attribute 데이터셋을 포함한 5개의 벤치마크 데이터셋에 대한 우리의 방법은 다른 최첨단 방법보다 훨씬 뛰어납니다.

As future work, we would like to explore other applications for our method such as person re-identification [44, 45, 46] and zero-shot activity retrieval [6].
향후 작업으로 사람 재식별[44, 45, 46] 및 제로샷 활동 검색[6]과 같은 방법에 대한 다른 응용 프로그램을 탐색하려고 합니다.

profile
인공지능 전문가가 될레요

0개의 댓글