Abstract 주요 시퀀스 변환 모델들은 복잡한 순환 신경망이나 컨볼루션 신경망을 기반으로 하며, 인코더와 디코더를 어텐션 메커니즘으로 연결 순환과 컨볼루션을 배제하고 어텐션 메커니즘만을 사용하는 새로운 단순 네트워크 아키텍처인 Transformer를 제안 Tran
소개 2017년 google에서 제안한 attention 기반의 encoder-decoder 알고리즘 순환신경망 기반의 방법이 아니라 attention 사용 주요 applitcations: BERT GPT BART Transformer 이해를 위해 a
Abstract Labeled data에 비해 Unlabeled text 말뭉치의 양은 방대하여 모델 훈련과 수행에 어려움이 있음 따라서 Unlabeled text를 활용한 language model의 Generative Pre-Training과 각 task에 맞
기존의 딥러닝에서는 Domain에 맞게 파인튜닝하는 과정을 거쳤다. GPT-1 또한 파인튜닝하는 과정을 거쳤어야 하며 그 후에 나온 BERT 모델 또한 Layer를 수정하며 파인튜닝을 진행해야한다. - - 이는 전체적인 딥러닝의 일반화를 제한한다고 주장하며 보다 광범위
1. LoRA의 기본 개념과 원리 기본 개념 Low-Rank Adaptation: LoRA는 이름 그대로 기존 모델의 가중치를 수정하지 않고, 그 업데이트 분을 저차원(저랭크) 행렬 두 개의 곱으로 표현. 가중치 고정: 사전학습된 거대 모델의 파라미터 대부분을 동결(f