# Language Model

19개의 포스트
post-thumbnail

KoGPT 써보기

KoGPT는 2021년 카카오브레인에서 발표한 GPT-3 한국어 버젼이다. 언어모델을 써야하는 일이 있어 써보기로 했다.... 근데 어떻게 쓰는거지?

2022년 6월 29일
·
0개의 댓글
post-thumbnail

What Language Model to Train if You Have One Million GPU Hours?

100만 A100 GPU 시간을 사용할수 있을때 100B+의 모델을 학습하기 위한 가장 좋은 구조와 학습 세팅은 무엇인가?

2022년 6월 12일
·
0개의 댓글

[텍스트 마이닝] 6. Language Model(2)

LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

2022년 5월 18일
·
0개의 댓글
post-thumbnail

[텍스트 마이닝] 5. Language Model(1)

Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =

2022년 5월 18일
·
0개의 댓글
post-thumbnail

GLaM: Efficient Scaling of Language Models with Mixture of Experts

최근, 딥러닝 연구가 과한 전기를 사용하고, 이것이 지구온난화를 악화시키고 있다는 연구들이 많이 나오고 있다. 이 논문은 그러한 사회 분위기를 이해하고 거대 모델을 학습시킴에 있어서 더 적은 계산량만으로 충분히 좋은 성능을 내게 만드는데 초점을 맞추었다이 논문은 Int

2022년 4월 8일
·
0개의 댓글
post-thumbnail

[GPT-1] Improving Language Understanding by Generative Pre-Training

최근 몇년간 NLP를 휩쓴 모델 두 가지만 이야기해보라고 하면 단연 GPT 시리즈와 BERT를 꼽을 것이다. BERT는 특유의 NLU 친화적인 모델구조로 인해 다양한 태스크에 쉽게 적용될 수 있어 무척 많은 연구들이 쏟아져 나왔다. 이에 비해 GPT의 경우 OpenAI

2022년 3월 15일
·
0개의 댓글
post-thumbnail

XLNet: Generalized Autoregressive Pretraining for Language Understanding(by 안재혁)

factorize 또는 factorization order를 인수 분해라고 해석했는데, 오류일 경우 이 부분을 감안하여 봐주시길 바랍니다.XLNet은 Transformer-XL의 후속 모델이기 때문에, transformer-XL이 가진 고유한 특징을 이해해야 XLNet

2022년 2월 24일
·
0개의 댓글

Dialogue Response Ranking Training with Large-Scale Human Feedback Data 논문요약 (2)

Generative dialogue model의 ranking 과정에서 사람의 피드백정보를 통합하면, 단어간의 관련성에만 의존하는 방법보다 자연스러운 대화모델을 개발할 수 있음

2022년 1월 16일
·
0개의 댓글
post-thumbnail

WebGPT: Browser-assisted question-answering with human feedback

OpenAI 에서 최근에 발표한 새로운 버전의 GPT. 텍스트 베이스의 웹 브라우징 환경을 통해서 GPT3를 파인튜닝 하고, 긴 맥락을 가진 질문에 대해서 답을 할수 있는 모델을 제안했다. 이러한 과정에서 이미테이션 러닝이나 강화학습의 개념을 사용였다. 모델의 평가는

2021년 12월 26일
·
0개의 댓글
post-thumbnail

FLAN (Wei et al., 2021, arXiv)

Google의 FLAN 논문 리뷰 (Under review in ICLR 2022)

2021년 12월 23일
·
0개의 댓글
post-thumbnail

DeBERTa (He et al., 2021, ICLR)

Microsoft의 DeBERTa 논문 리뷰

2021년 12월 19일
·
0개의 댓글

언어 모델 이해하기

언어란 무엇일까? 언어를 모사하는 언어 모델에 대해 알아보자

2021년 12월 18일
·
0개의 댓글

NLP (Natural Language Processing)

자연어 처리

2021년 12월 8일
·
0개의 댓글
post-thumbnail

[CS224N] Lecture 6: Language Models and Recurrent Neural Network

작성자: 고려대학교 통계학과 김현지Contents1\. Language Modeling2\. n-gram Language Model3\. Neural Language Model4\. RNN Language ModelLanguage Modeling: 주어진 단어의 시퀀스

2021년 11월 10일
·
2개의 댓글
post-thumbnail

💬 음성 대화 시스템이란?

✔ 음성 대화 시스템의 전체적인 구조 소개

2021년 7월 29일
·
1개의 댓글
post-thumbnail

나만의 언어모델 만들기 - BERT Pretrained Language Model (Masked Language Model) 만들기

최근 자연어처리에서 많이 사용되는 대표적인 언어모델로 BERT, GPT, ELECTRA가 있습니다. 단계별로 언어모델을 학습하는 과정 학습해보고, Colab 환경에서 직접 학습 시켜보고자 합니다. https://github.com/nawnoes/reformer

2021년 3월 15일
·
0개의 댓글

[paper-review] Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

Kobayashi, Sosuke. "Contextual augmentation: Data augmentation by words with paradigmatic relations." arXiv preprint arXiv:1805.06201 (2018).

2021년 2월 15일
·
0개의 댓글
post-thumbnail

나만의 언어모델 만들기 - 개요

최근 자연어 처리 분야에서 Transformer 등장 이후 다양한 BERT, GPT, ELECTRA 등의 다양한 언어모델들이 나오면서 뛰어난 성능을 보이고 있다. 대부분 구글이나 OpenAI 와 같은 회사들의 경우, 고성능의 컴퓨팅 자원을 바탕으로 매우 큰 파라미터들을

2020년 10월 1일
·
0개의 댓글