Intro최근 몇 년간 Transformer 모델의 등장 이후 BERT, GPT, RoBERTa, XLNet, ELECTRA, BART 등과 같은 언어 모델(Language Model)이 매해 새로운 SOTA를 달성하며 등장하고 있다. 특히 언어모델의 경우 self-s
Intro지난 포스트인 Sequence-to-Sequence with Attention에서 sequence-to-sequence 모델의 경우 RNN 계열의 순환 신경망을 사용함으로 인해 입력 시퀀스가 길어질 수 록 하나의 Context Vector에 모든 정보를 담기
이번 포스트에서는 🤗HuggingFace의 Transformers 라이브러리와 Tensorflow를 통해 사전 학습된 BERT모델을 Fine-tuning하여 Multi-Class Text Classification을 수행하는 방법에 대해 알아보고자 한다. 특히 이번
지난 포스트(Transformers와 Tensorflow를 활용한 BERT Fine-tuning)에 이어, 이번에는 HuggingFace Model Hub에 학습된 모델을 포팅하는 방법에 소개하고자 한다.HuggingFace Model Hub는 코드 공유 저장소인 gi
Intro 이전 포스트에서 소개한 SentenceBERT를 어떻게 학습하는지 논문 및 sentence-transformers 공식 깃헙을 기준으로 몇 가지 방법을 알아보고 어떤 방법이 가장 좋은 성능을 내었느지 소개하고자 한다. 1. SBERT 학습 데이터 SBERT
NLP 업계를 보고 있자면 우리가 모두 알만한 내놓라 하는 기업들은 서로 앞다투어 거대언어모델(LLM)을 발표하기 바쁜 것 같습니다. 얼마 전 구글에서 공개된 PaLM(Pathways Language Model)은 GPT-3(1,750억개)보다 약 3배나 큰 파라미터(