Transformers: State-of-the-Art Natural Language Processing

김동하·2023년 12월 11일

paper_review

목록 보기

10/11

https://arxiv.org/pdf/1910.03771.pdf

핵심 요약

Transformers는 자연어 처리 분야를 혁신적으로 발전시킨 오픈소스 라이브러리로, Transformer 아키텍처와 효과적인 사전 학습을 통해 다양한 작업을 위한 고용량 모델을 만들었습니다.
이 라이브러리는 최신 Transformer 아키텍처와 사전 학습된 모델을 통해 넓은 커뮤니티에 제공됩니다.
연구자들에게는 확장성을, 실무자들에게는 간편함을, 산업적 사용을 위해 신속하고 견고한 성능을 제공하는 것이 목표입니다.

1. Introduction

트랜스포머 아키텍처와 사전 학습된 모델은 자연어 처리 분야에서 큰 발전을 이루었습니다.
트랜스포머 아키텍처는 더 높은 용량의 모델을 구축하고, 사전 학습은 이 용량을 다양한 작업에 효과적으로 활용할 수 있게 만들었습니다.
Transformers는 이러한 발전을 더 넓은 머신 러닝 커뮤니티에 개방하기 위한 오픈 소스 라이브러리입니다.
이 라이브러리는 통일된 API 아래에서 신중하게 설계된 트랜스포머 아키텍처로 구성되어 있습니다. 또한, 커뮤니티에서 제작하고 제공하는 큐레이팅된 사전 학습된 모델 모음을 지원합니다.
Transformers는 연구원과 실무자 모두에게 도움이 되는 라이브러리입니다. 연구자는 새로운 트랜스포머 아키텍처를 개발하고, 실무자는 다양한 자연어 처리 작업에 사전 학습된 모델을 쉽게 활용할 수 있습니다.
Transformers는 다음과 같은 기능을 제공합니다.
- 다양한 트랜스포머 아키텍처 구현
- 큐레이팅된 사전 학습된 모델 모음
- 통일된 API
- 연구 및 프로덕션 모두를 위한 지원
Transformers는 Hugging Face의 엔지니어 및 연구원 팀에서 유지하고 있으며 400명 이상의 외부 기여자로 구성된 활발한 커뮤니티의 지원을 받고 있습니다.
Transformers는 자연어 처리 분야에서 발전을 이끌어갈 중요한 도구입니다.

NLP 및 ML 커뮤니티는 오픈 소스 연구 도구를 구축하는 강력한 문화를 가지고 있습니다.
Transformers는 다음과 같은 라이브러리에서 영감을 받았습니다.
- tensor2tensor 라이브러리: 구글 연구소에서 개발한 트랜스포머 아키텍처 구현 라이브러리
- BERT의 원래 소스 코드: 구글 연구소에서 개발한 BERT 모델의 원래 소스 코드
- AllenNLP 라이브러리: 사전 학습된 모델을 쉽게 캐싱할 수 있는 기능을 제공하는 NLP 라이브러리
- Fairseq, OpenNMT, Texar, Megatron-LM, Marian NMT 라이브러리: 신경망 번역 및 언어 모델링 시스템 라이브러리
Transformers는 이러한 라이브러리의 기능을 바탕으로 모델을 쉽게 다운로드, 캐싱 및 미세 조정하고 프로덕션으로 원활하게 전환할 수 있도록 하는 추가 사용자 친화적 기능을 제공합니다.
또한, Marian NMT 및 Google의 BERT에서 모델을 사용하여 추론을 수행하는 도구를 제공합니다.
Transformers는 NLTK, Stanford CoreNLP, Spacy, AllenNLP, flair, Stanza와 같은 일반 용도의 쉽게 사용할 수 있는 사용자 친화적인 NLP 라이브러리와 유사한 기능을 제공합니다.
이러한 라이브러리는 모두 Transformers 라이브러리와 모델 허브를 저수준 프레임워크로 사용합니다.
Transformers는 NLP 모델의 허브를 제공하기 때문에 Torch Hub 및 TensorFlow Hub와 같은 인기 있는 모델 허브와도 관련이 있습니다. 이러한 허브는 쉽게 사용할 수 있도록 프레임워크 별 모델 매개변수를 수집합니다.
허브와 달리 Transformers는 도메인 별이므로 시스템은 모델 분석, 사용, 배포, 벤치마킹 및 쉬운 복제를 위한 자동 지원을 제공할 수 있습니다.

3. Library Design

트랜스포머 라이브러리는 표준 NLP 기계 학습 모델 파이프라인을 모방하는데 중점을 두며, 세 가지 주요 구성 요소(토크나이저, 트랜스포머, 헤드)로 구성됩니다.
각 모델은 이러한 구성 요소로 완전히 정의되며, 다양한 NLP 작업에 활용할 수 있습니다.
Transformers
- NLP에서 널리 사용되는 Transformer 아키텍처의 구현을 제공하며, 각각은 동일한 핵심을 공유하지만 다른 특징을 가지고 있습니다.
- 이러한 모델은 이해, 생성, 조건부 생성 및 다국어 응용과 같은 다양한 NLP 작업을 위해 설계되었습니다.
Tokenizers
- 각 모델을 사용하기 위해 필요한 토크나이저의 구현을 포함하며, 어휘 처리와 모델의 특정 토크나이제이션 프로세스를 다룹니다.
- 사용자는 이를 확장하거나 조정하여 특정 작업에 맞게 사용할 수 있습니다.
Heads
- 각 트랜스포머 모델에 적합한 다양한 작업에 대한 출력을 제공하며, 특정 손실 함수와 레이어를 추가하여 트랜스포머의 결과를 가공합니다.
- 라이브러리는 각 헤드를 실제 문제에 적용한 예제를 제공하여 사용자가 사전 학습된 모델을 다양한 NLP 작업에 활용하는 방법을 보여줍니다.
모델은 여러 구현 아키텍처를 제공하며, 토크나이저는 빠른 처리를 위해 최적화된 라이브러리를 사용합니다.
또한 헤드는 다양한 작업에 대한 출력을 쉽게 조정할 수 있습니다.
이 모델은 다양한 NLP 작업에 적용 가능하며, 효과적인 사전 학습된 모델을 다른 작업에 적응하기 쉽도록 도와줍니다.

4. Community Model Hub

Transformers 라이브러리는 사전 학습된 모델의 쉬운 사용과 배포를 촉진하기 위한 오픈 소스 라이브러리입니다.
이 라이브러리는 모델 허브를 통해 커뮤니티의 모든 이해 관계자가 사전 학습된 모델을 쉽게 검색, 다운로드 및 사용할 수 있도록 합니다.
모델 허브는 사용자가 계정에 가입하고 명령줄 인터페이스를 사용하여 Tokinizer, Transformer, Head로 구성된 아카이브를 생성하여 모델을 업로드할 수 있습니다.
이 번들에는 라이브러리를 통해 학습된 모델 또는 다른 인기 있는 학습 도구의 체크포인트에서 변환된 모델이 포함될 수 있습니다.
이러한 모델은 저장되고 표준 이름이 부여되므로 사용자가 모델을 미세 조정 또는 추론을 위해 두 줄의 코드로 다운로드, 캐싱 및 실행할 수 있습니다.
예를 들어, 프랑스어 학습 코퍼스에서 사전 학습된 BERT 모델인 FlauBERT를 로드하려면 다음과 같은 명령어를 사용합니다.

tknzr = AutoTokenizer.from_pretrained(2 "flaubert/flaubert_base_uncased")
3 model = AutoModel.from_pretrained(4 "flaubert/flaubert_base_uncased")

모델 허브는 모델의 핵심 속성, 아키텍처 및 사용 사례를 설명하는 랜딩 페이지를 자동으로 생성합니다.
추가적인 모델 별 메타데이터는 모델 카드 Mitchell를 통해 제공될 수 있습니다.
이 카드에는 학습 속성, 연구에 대한 인용문, 사전 학습 중 사용된 데이터 셋 및 모델 및 예측의 알려진 편견에 대한 경고가 포함됩니다. 모델 카드의 예는 Figure 1(왼쪽)에 표시됩니다.
예를 들어, 업로드된 각 모델에는 구조에 대한 메타데이터가 포함되어 있으므로 모델 페이지에는 사용자가 실제 데이터에서 모델 출력을 실험할 수 있는 라이브 추론이 포함될 수 있습니다.
그림 1(오른쪽)은 라이브 추론이 포함된 모델 페이지의 예를 보여줍니다. 또한 모델 페이지에는 벤치마킹 및 시각화와 같은 기타 모델별 도구에 대한 링크가 포함됩니다.
예를 들어, 모델 페이지는 Transformer 시각화 라이브러리인 exBERT Hoover에 연결될 수 있습니다.

Figure 1: Transformers Model Hub

Community Case Studies
- 모델 허브는 Transformers가 다양한 방법으로 사용되고 있음을 보여줍니다.
- Case 1: Model Architects
  - 모델 아키텍트는 새로운 사전 학습된 모델을 개발하여 커뮤니티와 공유합니다.
  - 예를 들어, AllenAI는 생의학 텍스트에서 추출을 개선하기 위한 새로운 사전 학습된 모델인 SciBERT를 개발했습니다.
  - 모델 허브를 사용하여 모델을 배포하고 CORD - COVID-19 챌린지의 일환으로 홍보했습니다.
- Case 2: Task Trainers
  - 작업 트레이너는 다양한 작업에 대한 트랜스포머의 성능을 테스트하기 위한 테스트 베드를 개발합니다.
  - 예를 들어, NYU의 연구원들은 Jiant 프레임워크를 개발하여 다양한 방법으로 사전 학습된 모델을 미세 조정하고 그 출력을 비교할 수 있게 했습니다.
- Case 3: Application Users
  - 애플리케이션 사용자는 사전 학습된 모델을 사용하여 실제 세계 응용 프로그램을 구축합니다.
  - 예를 들어, Plotly는 자동 문서 요약 모델을 배포하기 위해 모델 허브를 사용했습니다.
  - 사전 학습된 및 미세 조정된 요약 모델인 DistilBART를 찾아서 허브에서 직접 모델을 실행하고 배포할 수 있었습니다.

5. Deployment

Transformers 라이브러리는 다음과 같은 기능을 통해 모델을 프로덕션에 효율적으로 배포할 수 있도록 지원합니다.
- PyTorch와 TensorFlow 모두에서 사용할 수 있는 모델 제공
  - 모델을 학습한 프레임워크에 관계없이 프로덕션에 배포할 수 있습니다.
- TorchScript 및 ONNX와 같은 중간 형식으로 모델 내보내기
  - 이러한 형식으로 변환하면 모델을 표준화된 방식으로 실행하고 속도를 향상시킬 수 있습니다.
- iOS 및 Android 디바이스에 대한 지원
  - 에지 디바이스에 모델을 배포할 수 있습니다.
이러한 기능을 통해 사용자는 다양한 환경에서 모델을 효율적으로 배포할 수 있습니다.

6. Conclusion

Transformers는 NLP 커뮤니티가 대규모 사전 학습된 모델을 쉽게 접근하고 사용할 수 있도록 지원하는 오픈 소스 라이브러리입니다.
Transformers는 NLP 연구 및 개발을 가속화하고 실제 세계 응용 프로그램 구축을 촉진하는 데 도움이 됩니다.

김동하

이전 포스트

Training Language Models to Follow Instructions with Human Feedback

다음 포스트

Transformers: State-of-the-Art Natural Language Processing

paper_review

핵심 요약

1. Introduction

3. Library Design

4. Community Model Hub

5. Deployment

6. Conclusion

Training Language Models to Follow Instructions with Human Feedback

Very Deep Convolutional Networks for Large-Scale Image Recognition (VGG)

0개의 댓글

Transformers: State-of-the-Art Natural Language Processing

paper_review

핵심 요약

1. Introduction

2. Related Work

3. Library Design

4. Community Model Hub

5. Deployment

6. Conclusion

Training Language Models to Follow Instructions with Human Feedback

Very Deep Convolutional Networks for Large-Scale Image Recognition (VGG)

0개의 댓글