Transformers: State-of-the-Art Natural Language Processing

김동하·2023년 12월 11일

paper_review

목록 보기
10/11

https://arxiv.org/pdf/1910.03771.pdf

핵심 요약

  • Transformers는 자연어 처리 분야를 혁신적으로 발전시킨 오픈소스 라이브러리로, Transformer 아키텍처와 효과적인 사전 학습을 통해 다양한 작업을 위한 고용량 모델을 만들었습니다.
  • 이 라이브러리는 최신 Transformer 아키텍처와 사전 학습된 모델을 통해 넓은 커뮤니티에 제공됩니다.
  • 연구자들에게는 확장성을, 실무자들에게는 간편함을, 산업적 사용을 위해 신속하고 견고한 성능을 제공하는 것이 목표입니다.

1. Introduction

  • 트랜스포머 아키텍처와 사전 학습된 모델은 자연어 처리 분야에서 큰 발전을 이루었습니다.
  • 트랜스포머 아키텍처는 더 높은 용량의 모델을 구축하고, 사전 학습은 이 용량을 다양한 작업에 효과적으로 활용할 수 있게 만들었습니다.
  • Transformers는 이러한 발전을 더 넓은 머신 러닝 커뮤니티에 개방하기 위한 오픈 소스 라이브러리입니다.
  • 이 라이브러리는 통일된 API 아래에서 신중하게 설계된 트랜스포머 아키텍처로 구성되어 있습니다. 또한, 커뮤니티에서 제작하고 제공하는 큐레이팅된 사전 학습된 모델 모음을 지원합니다.
  • Transformers는 연구원과 실무자 모두에게 도움이 되는 라이브러리입니다. 연구자는 새로운 트랜스포머 아키텍처를 개발하고, 실무자는 다양한 자연어 처리 작업에 사전 학습된 모델을 쉽게 활용할 수 있습니다.
  • Transformers는 다음과 같은 기능을 제공합니다.
    • 다양한 트랜스포머 아키텍처 구현
    • 큐레이팅된 사전 학습된 모델 모음
    • 통일된 API
    • 연구 및 프로덕션 모두를 위한 지원
  • Transformers는 Hugging Face의 엔지니어 및 연구원 팀에서 유지하고 있으며 400명 이상의 외부 기여자로 구성된 활발한 커뮤니티의 지원을 받고 있습니다.
  • Transformers는 자연어 처리 분야에서 발전을 이끌어갈 중요한 도구입니다.

2. Related Work

  • NLP 및 ML 커뮤니티는 오픈 소스 연구 도구를 구축하는 강력한 문화를 가지고 있습니다.
  • Transformers는 다음과 같은 라이브러리에서 영감을 받았습니다.
    • tensor2tensor 라이브러리: 구글 연구소에서 개발한 트랜스포머 아키텍처 구현 라이브러리
    • BERT의 원래 소스 코드: 구글 연구소에서 개발한 BERT 모델의 원래 소스 코드
    • AllenNLP 라이브러리: 사전 학습된 모델을 쉽게 캐싱할 수 있는 기능을 제공하는 NLP 라이브러리
    • Fairseq, OpenNMT, Texar, Megatron-LM, Marian NMT 라이브러리: 신경망 번역 및 언어 모델링 시스템 라이브러리
  • Transformers는 이러한 라이브러리의 기능을 바탕으로 모델을 쉽게 다운로드, 캐싱 및 미세 조정하고 프로덕션으로 원활하게 전환할 수 있도록 하는 추가 사용자 친화적 기능을 제공합니다.
  • 또한, Marian NMT 및 Google의 BERT에서 모델을 사용하여 추론을 수행하는 도구를 제공합니다.
  • Transformers는 NLTK, Stanford CoreNLP, Spacy, AllenNLP, flair, Stanza와 같은 일반 용도의 쉽게 사용할 수 있는 사용자 친화적인 NLP 라이브러리와 유사한 기능을 제공합니다.
  • 이러한 라이브러리는 모두 Transformers 라이브러리와 모델 허브를 저수준 프레임워크로 사용합니다.
  • Transformers는 NLP 모델의 허브를 제공하기 때문에 Torch Hub 및 TensorFlow Hub와 같은 인기 있는 모델 허브와도 관련이 있습니다. 이러한 허브는 쉽게 사용할 수 있도록 프레임워크 별 모델 매개변수를 수집합니다.
  • 허브와 달리 Transformers는 도메인 별이므로 시스템은 모델 분석, 사용, 배포, 벤치마킹 및 쉬운 복제를 위한 자동 지원을 제공할 수 있습니다.

3. Library Design

  • 트랜스포머 라이브러리는 표준 NLP 기계 학습 모델 파이프라인을 모방하는데 중점을 두며, 세 가지 주요 구성 요소(토크나이저, 트랜스포머, 헤드)로 구성됩니다.
  • 각 모델은 이러한 구성 요소로 완전히 정의되며, 다양한 NLP 작업에 활용할 수 있습니다.
  • Transformers
    • NLP에서 널리 사용되는 Transformer 아키텍처의 구현을 제공하며, 각각은 동일한 핵심을 공유하지만 다른 특징을 가지고 있습니다.
    • 이러한 모델은 이해, 생성, 조건부 생성 및 다국어 응용과 같은 다양한 NLP 작업을 위해 설계되었습니다.
  • Tokenizers
    • 각 모델을 사용하기 위해 필요한 토크나이저의 구현을 포함하며, 어휘 처리와 모델의 특정 토크나이제이션 프로세스를 다룹니다.
    • 사용자는 이를 확장하거나 조정하여 특정 작업에 맞게 사용할 수 있습니다.
  • Heads
    • 각 트랜스포머 모델에 적합한 다양한 작업에 대한 출력을 제공하며, 특정 손실 함수와 레이어를 추가하여 트랜스포머의 결과를 가공합니다.
    • 라이브러리는 각 헤드를 실제 문제에 적용한 예제를 제공하여 사용자가 사전 학습된 모델을 다양한 NLP 작업에 활용하는 방법을 보여줍니다.
  • 모델은 여러 구현 아키텍처를 제공하며, 토크나이저는 빠른 처리를 위해 최적화된 라이브러리를 사용합니다.
  • 또한 헤드는 다양한 작업에 대한 출력을 쉽게 조정할 수 있습니다.
  • 이 모델은 다양한 NLP 작업에 적용 가능하며, 효과적인 사전 학습된 모델을 다른 작업에 적응하기 쉽도록 도와줍니다.

4. Community Model Hub

  • Transformers 라이브러리는 사전 학습된 모델의 쉬운 사용과 배포를 촉진하기 위한 오픈 소스 라이브러리입니다.
  • 이 라이브러리는 모델 허브를 통해 커뮤니티의 모든 이해 관계자가 사전 학습된 모델을 쉽게 검색, 다운로드 및 사용할 수 있도록 합니다.
  • 모델 허브는 사용자가 계정에 가입하고 명령줄 인터페이스를 사용하여 Tokinizer, Transformer, Head로 구성된 아카이브를 생성하여 모델을 업로드할 수 있습니다.
  • 이 번들에는 라이브러리를 통해 학습된 모델 또는 다른 인기 있는 학습 도구의 체크포인트에서 변환된 모델이 포함될 수 있습니다.
  • 이러한 모델은 저장되고 표준 이름이 부여되므로 사용자가 모델을 미세 조정 또는 추론을 위해 두 줄의 코드로 다운로드, 캐싱 및 실행할 수 있습니다.
  • 예를 들어, 프랑스어 학습 코퍼스에서 사전 학습된 BERT 모델인 FlauBERT를 로드하려면 다음과 같은 명령어를 사용합니다.
tknzr = AutoTokenizer.from_pretrained(2 "flaubert/flaubert_base_uncased")
3 model = AutoModel.from_pretrained(4 "flaubert/flaubert_base_uncased")
  • 모델 허브는 모델의 핵심 속성, 아키텍처 및 사용 사례를 설명하는 랜딩 페이지를 자동으로 생성합니다.
  • 추가적인 모델 별 메타데이터는 모델 카드 Mitchell를 통해 제공될 수 있습니다.
  • 이 카드에는 학습 속성, 연구에 대한 인용문, 사전 학습 중 사용된 데이터 셋 및 모델 및 예측의 알려진 편견에 대한 경고가 포함됩니다. 모델 카드의 예는 Figure 1(왼쪽)에 표시됩니다.
  • 예를 들어, 업로드된 각 모델에는 구조에 대한 메타데이터가 포함되어 있으므로 모델 페이지에는 사용자가 실제 데이터에서 모델 출력을 실험할 수 있는 라이브 추론이 포함될 수 있습니다.
  • 그림 1(오른쪽)은 라이브 추론이 포함된 모델 페이지의 예를 보여줍니다. 또한 모델 페이지에는 벤치마킹 및 시각화와 같은 기타 모델별 도구에 대한 링크가 포함됩니다.
  • 예를 들어, 모델 페이지는 Transformer 시각화 라이브러리인 exBERT Hoover에 연결될 수 있습니다.

img

Figure 1: Transformers Model Hub

  • Community Case Studies
    • 모델 허브는 Transformers가 다양한 방법으로 사용되고 있음을 보여줍니다.
    • Case 1: Model Architects
      • 모델 아키텍트는 새로운 사전 학습된 모델을 개발하여 커뮤니티와 공유합니다.
      • 예를 들어, AllenAI는 생의학 텍스트에서 추출을 개선하기 위한 새로운 사전 학습된 모델인 SciBERT를 개발했습니다.
      • 모델 허브를 사용하여 모델을 배포하고 CORD - COVID-19 챌린지의 일환으로 홍보했습니다.
    • Case 2: Task Trainers
      • 작업 트레이너는 다양한 작업에 대한 트랜스포머의 성능을 테스트하기 위한 테스트 베드를 개발합니다.
      • 예를 들어, NYU의 연구원들은 Jiant 프레임워크를 개발하여 다양한 방법으로 사전 학습된 모델을 미세 조정하고 그 출력을 비교할 수 있게 했습니다.
    • Case 3: Application Users
      • 애플리케이션 사용자는 사전 학습된 모델을 사용하여 실제 세계 응용 프로그램을 구축합니다.
      • 예를 들어, Plotly는 자동 문서 요약 모델을 배포하기 위해 모델 허브를 사용했습니다.
      • 사전 학습된 및 미세 조정된 요약 모델인 DistilBART를 찾아서 허브에서 직접 모델을 실행하고 배포할 수 있었습니다.

5. Deployment

  • Transformers 라이브러리는 다음과 같은 기능을 통해 모델을 프로덕션에 효율적으로 배포할 수 있도록 지원합니다.
    • PyTorch와 TensorFlow 모두에서 사용할 수 있는 모델 제공
      • 모델을 학습한 프레임워크에 관계없이 프로덕션에 배포할 수 있습니다.
    • TorchScript 및 ONNX와 같은 중간 형식으로 모델 내보내기
      • 이러한 형식으로 변환하면 모델을 표준화된 방식으로 실행하고 속도를 향상시킬 수 있습니다.
    • iOS 및 Android 디바이스에 대한 지원
      • 에지 디바이스에 모델을 배포할 수 있습니다.
  • 이러한 기능을 통해 사용자는 다양한 환경에서 모델을 효율적으로 배포할 수 있습니다.

6. Conclusion

  • Transformers는 NLP 커뮤니티가 대규모 사전 학습된 모델을 쉽게 접근하고 사용할 수 있도록 지원하는 오픈 소스 라이브러리입니다.
  • Transformers는 NLP 연구 및 개발을 가속화하고 실제 세계 응용 프로그램 구축을 촉진하는 데 도움이 됩니다.

0개의 댓글