# LM
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 1
multi GPU로 LM 분산학습 중 에러

언어 모형(Language Model)
확률의 연쇄 규칙 $P(x_1, x_2) = P(x_2|x_1)P(x_1)$ 인과적 언어 모형(=언어모형) : 조건부 확률 형태의 언어 모형 $P(xn|x_1, x_2, …, x{n-1})$ 인공신경망 등의 모형으로 구현하기 쉬움단어를 순서대로 생성할 수 있음n-

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2seq Model
Amazon에서 공개한 20B encoder-decoder model

[논문 리뷰] Noisy Channel Language Model Promoting for Few-Shot Text Classification
Few shot Text Classification 을 Prompt tuning 접근한 방법론 정리 (1)

What Language Model to Train if You Have One Million GPU Hours?
100만 A100 GPU 시간을 사용할수 있을때 100B+의 모델을 학습하기 위한 가장 좋은 구조와 학습 세팅은 무엇인가?

UL2, Unifying Language Learning Paradigms
현재까지의 언어모델들은 특정한 유형에 맞춰져 있다. 하지만 어떤 구조가 가장 적합한지, 어떤 세팅이 되어야 하는지 아직 정해진 것들이나 업계 전반에 합의된 것은 없다. 이 논문에서 pretraining을 위한 통합된 프레임워크를 보이고자 한다.
[텍스트 마이닝] 6. Language Model(2)
LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

[텍스트 마이닝] 5. Language Model(1)
Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =
Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation 논문리뷰 (paper review)
Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation Ning Bian, Xianpei Han,* Bo Chen, Le Sun

XLNet: Generalized Autoregressive Pretraining for Language Understanding(by 강유진)
XLNet: Generalized Autoregressive Pretraining for Language Understanding Abstract BERT와 같이 양방향 문맥을 모델링하는 능력으로 사전학습을 기반으로 한 denoising autoencoding은 a