1. BERT란? Google에서 만든 사전 훈련된 모델이다. 등장 당시 11개의 NLP task에서 SOTA(State-Of-The-Art)를 기록한 어마어마한 모델이다. BERT의 모델은 Transformer(인코더-디코더 구조)를 기반으로 하고 있다. BERT는
개요 현재 대부분의 NLP task는 PLM (Pre-trained Language Model)을 통한 전이 학습이 대세로 자리잡았다. 하지만 긴 Pretraining을 수행 전 vocab을 만드는 건 정말 중요하다. 좋은 vocab을 만드는 것이 곧 토크나이징 퀄리
Python 3.8.3transformers 4.16.2torchcrf 0.0.1BiLSTM이나 BiGRU를 사용할때는 pack_padded_sequence와 pad_packed_sequence 함수를 사용한다. 나는 이부분에서 에러가 발생했다. 여기서 주의해야할 몇가
Relation Extraction(관계 추출)이란? :비구조적인 문장에서 구조적인 트리플(triple)를 추출하는 태스크이다. 트리플이란 두 개체 간의 관계(relation)를 으로 나타낸 구조이다. >text: 대한민국의 수도는 서울이다. triple: Rela
Word Embedding 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환한다. 1. 희소 표현(Sparse Representation) 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱
장안의 화제 챗 GPTNLP를 하는 사람이라던지 AI를 공부하는 사람이라면 요즘 제일 많이 들은 용어일 듯하다.우선 챗 GPT에 대해서 알아보자!!!미국의 Open AI에서 2022년 12월 1일에 공개한 대화형 인공지능 챗봇이다. GPT-3 언어모델의 파생형이다.챗봇
1. Meta 사이트 가기 우선, meta 사이트에 접속한다. llama2에 대한 자세한 이야기와 성능등을 볼 수 있다. https://ai.meta.com/llama/ 2. 모델 접근 신청하기 모델을 접근 신청하기 위해서는 간단한 정보를 작성하면된다.
A3로 LLM을 학습시키기 위해서 여러 시행착오를 겪었다. IA3를 작동시키기 위해서 내가 직면한 3가지 오류들에 대해 서술하겠다. 그리고 오류 해결법들에 대해 서술하겠다.
1.5T 토큰에 대해 최대 8K sequence length로 훈련한 7B LLM