# Language Model

27개의 포스트

BRIO 모델

모델의 VRAM 확인하기 2129MB => 2.23GB 생각보다 낮은 VRAM

2023년 3월 3일
·
0개의 댓글
·
post-thumbnail

chatGPT가 어떻게 개발자를 대체하게 될까

코드를 만들어달라고 할 필요도 없다. 언어모델이 비즈니스 로직의 주체가 될 수 있다.

2023년 1월 31일
·
0개의 댓글
·
post-thumbnail

Language Models as Knowledge Bases?

Language Models as Knowledge Bases?, EMNLP 2019

2023년 1월 26일
·
0개의 댓글
·

RoBERTa: A Robustly Optimized BERT Pretraining Approach

RoBERTa: A Robustly Optimized BERT Pretraining Approach, Facebook AI

2023년 1월 25일
·
0개의 댓글
·
post-thumbnail

T0 (V. Sanh et al., 2022, ICLR)

Multitask Prompted Training Enables Zero-Shot Task Generalization 논문 리뷰

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

SLiC (Zhao et al., 2022, arXiv)

Google의 SLiC 논문 리뷰 (preprint, 2022)

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

KoGPT 써보기

KoGPT는 2021년 카카오브레인에서 발표한 GPT-3 한국어 버젼이다. 언어모델을 써야하는 일이 있어 써보기로 했다.... 근데 어떻게 쓰는거지?

2022년 6월 29일
·
0개의 댓글
·
post-thumbnail

[Review] Improving Language Understanding by Generative Pre-Training (GPT-1)

DSAIL 스토리 제너레이션 스터디 발표 자료 <GPT-1>

2022년 6월 29일
·
0개의 댓글
·
post-thumbnail

What Language Model to Train if You Have One Million GPU Hours?

100만 A100 GPU 시간을 사용할수 있을때 100B+의 모델을 학습하기 위한 가장 좋은 구조와 학습 세팅은 무엇인가?

2022년 6월 12일
·
0개의 댓글
·

[텍스트 마이닝] 6. Language Model(2)

LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 5. Language Model(1)

Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

GLaM: Efficient Scaling of Language Models with Mixture of Experts

최근, 딥러닝 연구가 과한 전기를 사용하고, 이것이 지구온난화를 악화시키고 있다는 연구들이 많이 나오고 있다. 이 논문은 그러한 사회 분위기를 이해하고 거대 모델을 학습시킴에 있어서 더 적은 계산량만으로 충분히 좋은 성능을 내게 만드는데 초점을 맞추었다이 논문은 Int

2022년 4월 8일
·
0개의 댓글
·
post-thumbnail

[GPT-1] Improving Language Understanding by Generative Pre-Training

최근 몇년간 NLP를 휩쓴 모델 두 가지만 이야기해보라고 하면 단연 GPT 시리즈와 BERT를 꼽을 것이다. BERT는 특유의 NLU 친화적인 모델구조로 인해 다양한 태스크에 쉽게 적용될 수 있어 무척 많은 연구들이 쏟아져 나왔다. 이에 비해 GPT의 경우 OpenAI

2022년 3월 15일
·
0개의 댓글
·
post-thumbnail

XLNet: Generalized Autoregressive Pretraining for Language Understanding(by 안재혁)

factorize 또는 factorization order를 인수 분해라고 해석했는데, 오류일 경우 이 부분을 감안하여 봐주시길 바랍니다.XLNet은 Transformer-XL의 후속 모델이기 때문에, transformer-XL이 가진 고유한 특징을 이해해야 XLNet

2022년 2월 24일
·
0개의 댓글
·

Dialogue Response Ranking Training with Large-Scale Human Feedback Data 논문요약 (2)

Generative dialogue model의 ranking 과정에서 사람의 피드백정보를 통합하면, 단어간의 관련성에만 의존하는 방법보다 자연스러운 대화모델을 개발할 수 있음

2022년 1월 16일
·
0개의 댓글
·
post-thumbnail

WebGPT: Browser-assisted question-answering with human feedback

OpenAI 에서 최근에 발표한 새로운 버전의 GPT. 텍스트 베이스의 웹 브라우징 환경을 통해서 GPT3를 파인튜닝 하고, 긴 맥락을 가진 질문에 대해서 답을 할수 있는 모델을 제안했다. 이러한 과정에서 이미테이션 러닝이나 강화학습의 개념을 사용였다. 모델의 평가는

2021년 12월 26일
·
1개의 댓글
·
post-thumbnail

FLAN (Wei et al., 2021, arXiv)

Google의 FLAN 논문 리뷰 (Under review in ICLR 2022)

2021년 12월 23일
·
0개의 댓글
·
post-thumbnail

DeBERTa (He et al., 2021, ICLR)

Microsoft의 DeBERTa 논문 리뷰

2021년 12월 19일
·
0개의 댓글
·