A survey on semi-supervised learning 제1부

이준석·2022년 10월 11일
0

A survey on semi-supervised learning

Abstract

Semi-supervised learning is the branch of machine learning concerned with using labelled as well as unlabelled data to perform certain learning tasks. Conceptually situated between supervised and unsupervised learning, it permits harnessing the large amounts of unlabelled data available in many use cases in combination with typically smaller sets of labelled data.
반 지도 학습은 특정 학습 작업을 수행하기 위해 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하는 것과 관련된 기계 학습의 한 분야입니다. 개념적으로 지도 학습과 비지도 학습 사이에 위치하여 일반적으로 더 작은 레이블이 지정된 데이터 세트와 함께 많은 사용 사례에서 사용할 수 있는 많은 양의 레이블이 지정되지 않은 데이터를 활용할 수 있습니다.

In recent years, research in this area has followed the general trends observed in machine learning, with much attention directed at neural network-based models and generative learning. The literature on the topic has also expanded in volume and scope, now encompassing a broad spectrum of theory, algorithms and applications.
최근 몇 년 동안 이 분야의 연구는 신경망 기반 모델과 생성 학습에 많은 관심을 기울이면서 기계 학습에서 관찰되는 일반적인 경향을 따랐습니다. 이 주제에 대한 문헌은 또한 이론, 알고리즘 및 응용의 광범위한 스펙트럼을 포함하여 볼륨과 범위가 확장되었습니다.

However, no recent surveys exist to collect and organize this knowledge, impeding the ability of researchers and engineers alike to utilize it. Filling this void, we present an up-to-date overview of semi-supervised learning methods, covering earlier work as well as more recent advances. We focus primarily on semi-supervised classification, where the large majority of semi-supervised learning research takes place.
그러나 이 지식을 수집하고 정리하기 위한 최근 설문조사가 존재하지 않아 연구원과 엔지니어가 이를 활용하는 데 방해가 됩니다. 이 공백을 채우기 위해 우리는 이전 작업과 최신 발전을 포괄하는 반 지도 학습 방법의 최신 개요를 제시합니다. 우리는 주로 반 지도 학습 연구의 대부분이 일어나는 반 지도 분류에 중점을 둡니다.

Our survey aims to provide researchers and practitioners new to the field as well as more advanced readers with a solid understanding of the main approaches and algorithms developed over the past two decades, with an emphasis on the most prominent and currently relevant work.
우리의 설문 조사는 가장 두드러지고 현재 관련성이 있는 작업에 중점을 두고 지난 20년 동안 개발된 주요 접근 방식과 알고리즘에 대한 확실한 이해를 제공하는 것을 목표로 하고 있습니다.

Furthermore, we propose a new taxonomy of semi-supervised classification algorithms, which sheds light on the different conceptual and methodological approaches for incorporating unlabelled data into the training process. Lastly, we show how the fundamental assumptions underlying most semi-supervised learning algorithms are closely connected to each other, and how they relate to the well-known semi-supervised clustering assumption.
또한, 레이블이 지정되지 않은 데이터를 훈련 프로세스에 통합하기 위한 다양한 개념 및 방법론적 접근 방식을 조명하는 반 지도 분류 알고리즘의 새로운 분류를 제안합니다. 마지막으로, 우리는 대부분의 semi-supervised learning 알고리즘의 기본 가정이 어떻게 서로 밀접하게 연결되어 있는지, 그리고 이것이 잘 알려진 semi-supervised 클러스터링 가정과 어떻게 관련되는지 보여줍니다.


1 Introduction

In machine learning, a distinction has traditionally been made between two major tasks:
supervised and unsupervised learning (Bishop 2006). In supervised learning, one is presented with a set of data points consisting of some input x and a corresponding output value y. The goal is, then, to construct a classifier or regressor that can estimate the output value for previously unseen inputs.
기계 학습에서는 전통적으로 두 가지 주요 작업을 구분했습니다.
감독 및 감독되지 않은 학습(Bishop 2006). 지도 학습에서는 일부 입력 x와 해당 출력 값 y로 구성된 데이터 포인트 세트가 제공됩니다. 그런 다음 목표는 이전에 본 적이 없는 입력에 대한 출력 값을 추정할 수 있는 분류기 또는 회귀 분석기를 구성하는 것입니다.

In unsupervised learning, on the other hand, no specific output value is provided. Instead, one tries to infer some underlying structure from the inputs. For instance, in unsupervised clustering, the goal is to infer a mapping from the given inputs (e.g. vectors of real numbers) to groups such that similar inputs are mapped to the same group.
반면 비지도 학습에서는 특정 출력 값이 제공되지 않습니다. 대신, 입력에서 몇 가지 기본 구조를 추론하려고 시도합니다. 예를 들어, 비지도 클러스터링에서 목표는 유사한 입력이 동일한 그룹에 매핑되도록 주어진 입력(예: 실수의 벡터)에서 그룹으로 매핑을 추론하는 것입니다.

profile
인공지능 전문가가 될레요

0개의 댓글