AI_심화-10 Transformers, BERT, GPT, BART

조현진·2025년 1월 14일
0

AI_심화

목록 보기
9/9

0. Transformers

1blue3brown의 Transformers 영상
https://youtu.be/LPZh9BOjkQs?si=DGKW99vESeTXnPUM

구글의 한 연구팀이 Transformers라는 신경망 아키텍쳐를 만들어내기 전까지 LLM들은 문장을 토큰단위로 분할하고, 토큰을 순차적으로 처리하며 다음 단어를 예측했다.

하지만 transformers의 등장 이후로 이런 과정이 바뀌었다.

transformers는 각 토큰을 모두 임베딩시켜 벡터화한다. 그리고 Attention이라는 작업을 수행함. 이건 각 토큰끼리의 관계를 비교하며 전체 문장의 문맥을 파악하는 행위임.

이 메커니즘을 이용해 입력된 문장내 토큰들에 가중치를 부여하고 무엇이 가장 중요한 토큰인지를 파악하게끔 한다고 함.

이 Attention이 병렬적으로 이뤄진다는게 이전 아키텍쳐와 Transformers의 차이이다.

최종적으로는 문맥을 고려해 마지막 단어가 무엇이 올지 확률을 얻어내 문장을 완성시킨다.

Encoder and Decoder

transformers 아키텍쳐에서 인코더는 입력된 자연어를 문맥을 파악하고, 그 과정에서 토큰들을 임베딩한다.

디코더는 임베딩된 토큰과 파악된 문맥을 바탕으로 다음에 나올 키워드를 정한다.

이런 아키텍쳐를 바탕으로 만들어진 모델이 BERT, BART, GPT이다.

1. BERT (Bidirectional Encoder Representations from Transformers)

주요 특징

  • 양방향(비대칭): 입력 텍스트의 양쪽(좌우) 문맥을 동시에 고려하여 단어의 의미를 학습.(문장의 전체 의미를 파악하는데 특화되어 있음)
  • 구조: Encoder-only 모델. Transformer의 Encoder 부분만 사용.
  • 목적: 주어진 텍스트를 이해(이해 기반 모델)하는 데 초점.

사용 사례

  • 문장 분류, 감정 분석, 개체명 인식(NER), 질의응답(QA), 텍스트 분류. - 인식하고 이해하고, 분류하는데 특화되어있다. 생성보다는 분석에 초점
  • 예시 모델: bert-base-uncased, distilbert.

2. BART (Bidirectional and Auto-Regressive Transformers)

주요 특징

  • 양방향 + 단방향: Encoder는 입력을 양방향으로 처리하고, Decoder는 단방향(왼쪽에서 오른쪽)으로 생성.
  • 구조: Encoder-Decoder 모델. Transformer 전체를 사용.
  • 목적: 텍스트 복원 및 생성 작업에 초점.

사용 사례

  • 문장 요약, 기계 번역, 텍스트 생성. - 입력데이터를 분석(변환, 인식, 분해, 분류)하고, 이를 바탕으로 생성하는 것에 초점이 맞춰져 있음.
  • 예시 모델: facebook/bart-large, bart-base.

3. GPT (Generative Pre-trained Transformer)

주요 특징

  • 단방향(비대칭): 입력 텍스트를 왼쪽에서 오른쪽으로 순차적으로 처리.(오직 학습된 과거의 단어만 참조, 따라서 텍스트를 순차적으로 생성해냄)
  • 구조: Decoder-only 모델. Transformer의 Decoder 부분만 사용.
  • 목적: 텍스트 생성을 중심으로 설계된 모델.

사용 사례

  • 텍스트 생성, 대화형 AI, 창의적 쓰기. - 다음 단어를 예측해 문장을 만들어내는데 특화되어 있음.
  • 예시 모델: gpt2, gpt-3, chatgpt.

비교

모델구조방향성목적주요 사용 사례
BERTEncoder-only양방향텍스트 이해감정 분석, NER, QA
BARTEncoder-Decoder양방향 + 단방향텍스트 생성 및 복원텍스트 요약, 기계 번역
GPTDecoder-only단방향텍스트 생성대화형 AI, 창의적 텍스트 작성

0개의 댓글