Deep Learning on Small Datasets without Pre-Training using Cosine Loss 제2부

이준석·2022년 10월 30일
0

Learning from Small Data

The problem of learning from limited data has been approached from various directions. First and foremost, there is a huge body of work in the field of few-shot and one-shot learning.
제한된 데이터로부터 학습하는 문제는 다양한 방향에서 접근되어 왔다. 무엇보다도, 퓨샷 및 원샷 러닝 분야에는 엄청난 양의 작업이 있습니다.

In this area, it is often assumed to be given a set of classes with sufficient training data that is used to improve the performance on another set of classes with very few labeled examples.
이 영역에서는 레이블이 지정된 예제가 거의 없는 다른 클래스 세트의 성능을 향상시키는 데 사용되는 충분한 교육 데이터가 포함된 클래스 세트가 제공된다고 가정하는 경우가 많습니다.

Metric learning techniques are common in this scenario, which aim at learning discriminative features from a large dataset that generalize well to new classes [45, 38, 41, 47, 50], so that classification in face of limited data can be performed with a nearest neighbor search. Another approach to fewshot learning is meta-learning: training a learner on large datasets to learn from small ones [22, 30, 48].
메트릭 학습 기술은 이 시나리오에서 일반적이며, 새로운 클래스로 잘 일반화되는 큰 데이터 세트의 판별 기능을 학습하는 것을 목표로 합니다[45, 38, 41, 47, 50]. 가장 가까운 이웃 검색. 퓨샷 러닝에 대한 또 다른 접근 방식은 메타 학습입니다. 즉, 학습자가 큰 데이터 세트에서 학습하여 작은 데이터 세트에서 학습하도록 하는 것입니다[22, 30, 48].


Our work is different from these few-shot learning approaches due to two reasons: First, we aim at learning a deep classifier entirely from scratch on small datasets, without pre-training on any additional data.
우리의 작업은 다음 두 가지 이유로 인해 이러한 몇 번의 학습 접근 방식과 다릅니다. 첫째, 추가 데이터에 대한 사전 교육 없이 작은 데이터 세트에서 완전히 처음부터 심층 분류기를 학습하는 것을 목표로 합니다.

Secondly, our approach covers datasets with roughly between 20 and 100 samples per class, which is in the interstice between a typical few-shot scenario with even fewer samples and a classical deep learning setting with much more data.
둘째, 우리의 접근 방식은 클래스당 대략 20개에서 100개 사이의 샘플을 포함하는 데이터 세트를 다룹니다. 이는 샘플이 훨씬 적은 일반적인 몇 번의 시나리오와 훨씬 더 많은 데이터가 포함된 고전적인 딥 러닝 설정 사이에 있습니다.


Other approaches on learning from small datasets employ domain-specific prior knowledge to either artificially enlarge the amount of training data or to guide the learning.
작은 데이터 세트에서 학습하는 다른 접근 방식은 영역별 사전 지식을 사용하여 훈련 데이터의 양을 인위적으로 늘리거나 학습을 안내합니다.

Regarding the former, Hu et al. [16], for instance, composite face parts from different images to create new face images and Shrivastava et al. [36] conduct training on both real images and synthetic images using a GAN. As an example for integrating prior knowledge, Lake et al. [21] represent classes of handwritten characters as probabilistic programs that compose characters out of individual strokes and can be learned from a single example.
However, generalizing this technique to other types of data is not straightforward.
전자와 관련하여 Hu et al. [16] 예를 들어, 다른 이미지의 얼굴 부분을 합성하여 새로운 얼굴 이미지를 생성하고 Shrivastava et al. [36] GAN을 사용하여 실제 이미지와 합성 이미지 모두에 대한 교육을 수행합니다. 선행 지식을 통합하는 예로서 Lake et al. [21]은 필기 문자 클래스를 개별 획에서 문자를 구성하고 단일 예제에서 배울 수 있는 확률 프로그램으로 나타냅니다.
그러나 이 기술을 다른 유형의 데이터로 일반화하는 것은 간단하지 않습니다.

In contrast to all approaches mentioned above, our work focuses on learning from limited amounts of data without any external data or prior knowledge. This problem has recently also been tackled by incorporating a GAN for data augmentation into the learning process [53]. As opposed to this, we approach the problem from the perspective of the loss function, which has not been explored extensively so far for direct fully-supervised classification.
위에서 언급한 모든 접근 방식과 달리, 우리의 작업은 외부 데이터나 사전 지식 없이 제한된 양의 데이터로부터 학습하는 데 중점을 둔다. 이 문제는 또한 최근 데이터 증강을 위한 GAN을 학습 프로세스에 통합함으로써 해결되었다[53]. 이와 반대로, 우리는 직접 완전 감독 분류를 위해 지금까지 광범위하게 탐구되지 않은 손실 함수의 관점에서 문제에 접근한다.


Cosine Loss

The cosine loss has already successfully been used for applications other than classification. Qin et al. [31], for example, use it for a list-wise learning to rank approach, where a vector of predicted ranking scores is compared to a vector of ground-truth scores using the cosine similarity. It furthermore enjoys popularity in the area of cross-modal embeddings, where different representations of the same entity, such as images and text, should be close together in a joint embedding space [39, 35].
코사인 손실은 분류 이외의 응용 프로그램에 이미 성공적으로 사용되었습니다. Qin et al. [31] 예를 들어, 순위 접근 방식에 대한 목록 방식 학습에 사용합니다. 여기서 예측 순위 점수의 벡터는 코사인 유사도를 사용하여 실제 점수의 벡터와 비교됩니다.

It furthermore enjoys popularity in the area of cross-modal embeddings, where different representations of the same entity, such as images and text, should be close together in a joint embedding space [39, 35].
또한 이미지 및 텍스트와 같은 동일한 엔터티의 서로 다른 표현이 공동 임베딩 공간에서 서로 가깝게 있어야 하는 교차 모드 임베딩 영역에서 인기를 누리고 있습니다[39, 35].

Various alternatives for the predominant cross-entropy loss have furthermore recently been explored in the field of deep metric learning, mainly in the context of face identification and verification.
predominant 뚜려한, 두드러진, 지배적인 mainly 주로
지배적인 교차 엔트로피 손실에 대한 다양한 대안들이 심층 메트릭 학습 분야에서, 주로 얼굴 식별 및 검증의 맥락에서 더 최근에 탐구되었다.

Liu et al. [25], for example, extend the cross-entropy loss by enforcing a pre-defined margin between the angle of features predicted for different classes. Ranjan et al. [33], in contrast, L2 -normalize the predicted features before applying the softmax activation and the cross-entropy loss.
Liu et al. [25] 예를 들어, 서로 다른 클래스에 대해 예측된 특징의 각도 사이에 미리 정의된 마진을 적용하여 교차 엔트로피 손실을 확장합니다. Ranjanet al. 대조적으로, L2 - softmax 활성화와 교차 엔트로피 손실을 적용하기 전에 예측된 특징을 정규화합니다.

However, they found that doing so requires scaling the normalized features by a carefully tuned constant to achieve convergence.
그러나 그들은 그렇게 하려면 수렴을 달성하기 위해 주의 깊게 조정된 상수로 정규화된 기능을 확장해야 한다는 것을 발견했습니다.

Wang et al. [47] combine both approaches by normalizing both the features and the weights of the classification layer, which realizes a comparison between the predicted features and learned class-prototypes by means of the cosine similarity.
Wang et al. [47] 코사인 유사도를 통해 예측된 특징과 학습된 클래스 프로토타입 간의 비교를 실현하는 분류 계층의 특징과 가중치를 모두 정규화하여 두 접근 방식을 결합합니다.


profile
인공지능 전문가가 될레요

0개의 댓글