# LM

11개의 포스트

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 1

multi GPU로 LM 분산학습 중 에러

2023년 1월 19일
·
0개의 댓글
·
post-thumbnail

언어 모형(Language Model)

확률의 연쇄 규칙 $P(x_1, x_2) = P(x_2|x_1)P(x_1)$ 인과적 언어 모형(=언어모형) : 조건부 확률 형태의 언어 모형 $P(xn|x_1, x_2, …, x{n-1})$ 인공신경망 등의 모형으로 구현하기 쉬움단어를 순서대로 생성할 수 있음n-

2023년 1월 14일
·
0개의 댓글
·
post-thumbnail

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2seq Model

Amazon에서 공개한 20B encoder-decoder model

2022년 9월 25일
·
0개의 댓글
·
post-thumbnail

[논문 요약] Attention is All You Need

논문 구현을 위한 핵심 요약.

2022년 9월 12일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Noisy Channel Language Model Promoting for Few-Shot Text Classification

Few shot Text Classification 을 Prompt tuning 접근한 방법론 정리 (1)

2022년 9월 11일
·
0개의 댓글
·
post-thumbnail

What Language Model to Train if You Have One Million GPU Hours?

100만 A100 GPU 시간을 사용할수 있을때 100B+의 모델을 학습하기 위한 가장 좋은 구조와 학습 세팅은 무엇인가?

2022년 6월 12일
·
0개의 댓글
·
post-thumbnail

UL2, Unifying Language Learning Paradigms

현재까지의 언어모델들은 특정한 유형에 맞춰져 있다. 하지만 어떤 구조가 가장 적합한지, 어떤 세팅이 되어야 하는지 아직 정해진 것들이나 업계 전반에 합의된 것은 없다. 이 논문에서 pretraining을 위한 통합된 프레임워크를 보이고자 한다.

2022년 6월 6일
·
0개의 댓글
·

[텍스트 마이닝] 6. Language Model(2)

LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 5. Language Model(1)

Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =

2022년 5월 18일
·
0개의 댓글
·

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation 논문리뷰 (paper review)

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation Ning Bian, Xianpei Han,* Bo Chen, Le Sun

2022년 3월 3일
·
0개의 댓글
·
post-thumbnail

XLNet: Generalized Autoregressive Pretraining for Language Understanding(by 강유진)

XLNet: Generalized Autoregressive Pretraining for Language Understanding Abstract BERT와 같이 양방향 문맥을 모델링하는 능력으로 사전학습을 기반으로 한 denoising autoencoding은 a

2022년 3월 3일
·
0개의 댓글
·