A survey Transformer 제2부

이준석·2022년 6월 24일
0

Transformer survey

목록 보기
2/4

1. Introduction

Transformer is a prominent deep learning model that has been widely adopted in various filed, such as natural language processing(NLP), computer vision(CV) and speech proecessing.
트랜스포머[137]는 자연어 처리(NLP), 컴퓨터 비전(CV), 음성 처리 등 다양한 분야에서 널리 채택된 저명한 딥 러닝 모델이다.

Transformer was originally proposed as a sequence-to-sequence model for machine translation.
트랜스포머는 원래 기계 번역을 위한 시퀀스 투 시퀀스 모델[130]로 제안되었다.

Later works show that Transformer-based pretrained models (PTMs) can achieve state-of-the-art performances on various tasks.
이후의 연구는 트랜스포머 기반 사전 훈련된 모델(PTM)[100]이 다양한 작업에서 최첨단 성능을 달성할 수 있다는 것을 보여준다.

As a consequence, Transformer has become the go-to architecture in NLP, especially for PTMs.
그 결과 트랜스포머는 NLP, 특히 PTM에서 가장 많이 사용되는 아키텍처가 되었습니다.

In addition to language related applications, Transformer has also been adopted inCV, audio processing and even other disciplines, such as chemisty and life sciences.
트랜스포머는 언어 관련 응용 프로그램 외에도 CV[13, 33, 94], 오디오 처리[15, 31, 41] 및 화학[114] 및 생명과학[109]과 같은 다른 분야에서도 채택되었습니다.


Due to the success, a variety of Transforemer variants(a.k.a X-formers) have been proposed over the past few years.
이러한 성공으로 인해 지난 몇 년간 다양한 트랜스포머 변종(일명 X-포머)이 제안되었다.

These X-foremrs improve the vanilla Transformer from different persepectives.
이러한 X-포머는 다양한 관점에서 바닐라 트랜스포머를 개선합니다.

  1. Model Efficieny. A key challenge of applying Transformer is its inefficiency at processing long sequences mainly due to the computation and memory complexity of the self-attention module.
    모델 효율성. 트랜스포머 적용의 핵심 과제는 주로 셀프 어텐션 모듈의 계산 및 메모리 복잡성으로 인해 긴 시퀀스를 처리하는 데 비효율적이라는 것이다.
    The improvement method include lightweight attention (e.g. sprase attention variants) and Divide-and-conquer methods (e.g., recurrent and hierarchical mechanism).
    개선 방법에는 경량 주의(예: 희소 주의 변형)와 분할 및 정복 방법(예: 반복 및 계층 메커니즘)이 포함된다.

  2. Model Generalization. Since the transformer is a flexible architecture and makes few assumptions on the structural bias of input data, it is hard to train on small-scale data.
    (2) 모델 일반화. 변압기는 유연한 아키텍처이며 입력 데이터의 구조적 편향에 대한 가정을 거의 하지 않기 때문에 소규모 데이터에 대해 훈련하기 어렵다.
    The imporvement methods include introducing structural bias or regularization, pre-training on large-scale unlabeld data, etc.
    개선 방법에는 구조적 편향 또는 정규화 도입, 레이블이 지정되지 않은 대규모 데이터에 대한 사전 교육 등이 포함된다.

  3. Model Adaption. This line of work aims to adapt the Transformer to specific downstream tasks and applications.
    (3) 모델 적응. 이 작업 라인은 트랜스포머를 특정 다운스트림 작업 및 응용 프로그램에 적응시키는 것을 목표로 합니다.


In this survey, we aim to provide a comprehensive review of the Transformer and its variants.
이 설문 조사에서는 트랜스포머와 그 변형에 대한 포괄적인 검토를 제공하는 것을 목표로 한다

Although we can organize X-formers on the basis of the perspectives mentioned above, many existing X-formers may address one or several issues.
위에서 언급한 관점을 바탕으로 X-포머를 구성할 수 있지만, 많은 기존 X-포머들은 하나 또는 여러 가지 문제를 해결할 수 있습니다.

For example, sparse attention variants not only reduce the computational complexity but also introduce structural prior on input data to alleviate the overfitting problem on small datasets.
예를 들어, 희소 주의 변형은 계산 복잡성을 줄일 뿐만 아니라 입력 데이터에 대한 구조적 사전 설정을 도입하여 작은 데이터 세트에 대한 과적합 문제를 완화합니다.

Therefore, it is more methodical to categorize the various existing X-formers and propose a new taxonomy mainly according to their ways to improve the vanilla Transformer: architecture modification, pre-training, and applications.
따라서 기존의 다양한 X-포머를 분류하고 주로 바닐라 트랜스포머를 개선하는 방법에 따라 새로운 분류법을 제안하는 것이 더 체계적이다.:
architecture modification, pre-training, and applications

Cosidering the audience of this survey may be from different domains, we mainly focus on the general architecture varints and just briefly discuss the specific variants on pre-training and applications.
이 설문 조사의 청중이 서로 다른 도메인일 수 있다는 점을 고려하여, 우리는 주로 일반적인 아키텍처 변형에 초점을 맞추고 사전 교육 및 응용 프로그램에 대한 특정 변형에 대해 간단히 논의한다.


The rest of the survey is organized as follows. Sec. 2 introduces the architecture and the key components of Transformer.
나머지 조사의 구성은 다음과 같습니다. 2절에서는 트랜스포머의 아키텍처와 주요 구성 요소를 소개합니다.

Sec.3 clarifies the categorization of Transformer variants. Sec. 4~5 review the module-level modifications, including attention module, position encoding, layer normalization and feed-forward layer.
3절은 트랜스포머 변종의 분류를 명확히 한다. 4-5절에서는 주의 모듈, 위치 인코딩, 계층 정규화 및 피드포워드 계층을 포함한 모듈 레벨 수정 사항을 검토합니다.

Sec.6 reviews the architecutre-level variants. Sec. 7 introduces some of the representaive Transformer-based PTMs.
6장에서는 아키텍처 수준 변형을 검토합니다. 7절에서는 대표적인 트랜스포머 기반 PTM을 소개한다.

Sec.8 introduce the appliation of Transformer to various different fields. Sec.9 discusses some aspects of Trnasformer that researchers might find intriguing and summarizes the paper.
8절에서는 트랜스포머의 다양한 분야에 대한 적용을 소개한다. 9절에서는 연구원들이 흥미를 느낄 수 있는 트랜스포머의 몇 가지 측면에 대해 논의하고 논문을 요약한다.

profile
인공지능 전문가가 될레요

0개의 댓글