post-thumbnail

GPT-3의 모델

GPT-3의 접근 방법은 기존의 GPT-2의 모델, 학습데이터, 학습 방법 등에서 유사하다. 거기서 확장하여, 모델의 사이즈와 데이터의 사이즈를 확대했으며, 데이터의 다양성을 증가했고, 학습 길이도 증가시켰다.

2020년 6월 24일
·
0개의 댓글
post-thumbnail

GPT-3가 보이고 싶은 것

GPT-3는 175억개의 파라미터를 `autoregressive language model` 방식으로 학습하므로써 큰 모델이 in-context learning을 하고, zero, one, few-shot 학습을 통해 파인튜닝만큼의 성능을 실험해보고자 했다.

2020년 6월 19일
·
0개의 댓글
post-thumbnail

사전학습과 파인튜닝 패러다임을 넘어서

GPT-3, 사전학습과 파인튜닝 패러다임을 넘어서

2020년 6월 17일
·
0개의 댓글
post-thumbnail

GPT-3 들어가기 전에

GPT-3 들어가기 전에

2020년 6월 17일
·
0개의 댓글

리포머의 Reversible Transformer

Illustrating the Reformer를 보며 정리.트랜스포머에서 인코더와 디코더 레이어를 여러개를 쌓을 때, Residual Network에서 역전파를 위해 그래디언트 값들을 저장하고 있다. 이때 저장하고 있는 값들이 매우 많아, 큰 트랜스포머 모델을 사용할

2020년 4월 21일
·
0개의 댓글

LSH Attention

Q와 K 매트릭스의 LSH 해시를 찾는다같은 LSH를 거쳐서 같은 버켓 안에 있는 $k$와 $q$에 대해서 아래 어텐션을 계산한다.충분히 가까운 항목들이 다른 버켓에 빠지지 않도록, LSH를 여러번 반복한다.LSH로 query, key들에 대해 버켓팅버켓에 따라 정렬청

2020년 4월 21일
·
0개의 댓글

Top-p 샘플링 aka. Nucleus Sampling

How to sample from language models 을 보며 정리GPT-2로 텍스트를 생성하다보면, 랜덤 샘플링이나 Top-k 샘플링 등을 사용해도 문맥이 잘 맞지 않는다고 생각이 된다. 추가로 다른 방법 중 Top-p, Nucleus 샘플링을 찾을 수 있다

2020년 4월 17일
·
0개의 댓글

피처베이스(feature-based)와 파인튜닝(fine-tuning) 학습의 차이

논문이나 책을 읽다보면 피처베이스와 파인튜닝 부분을 학습에 대해 종종 볼 수 있는데, 그 차이는 다음과 같다.파인튜닝(fine-tuning): 임베딩까지 모두 업데이트하는 기법피처베이스(feature-based): 임베딩은 그대로 두고 그 위에 레이어만 학습 하는 방법

2020년 4월 15일
·
0개의 댓글

Downstream Task란?

딥러닝 관련 글들을 보면 최근 다운스트림 태스크에 대한 부분을 많이 볼 수 있다. 몇몇 글들을 찾아보다보면 잘 이해가지 않는 부분이 있었다가 한국어임베딩 책에서 적절한 설명을 찾았다.한마디로 구체적으로 풀고 싶은 문제들을 말한다. 최근 자연어 처리분야에서는 언어모델

2020년 4월 15일
·
0개의 댓글

Reformer LSH(Locality sensitive hashing)

Illustrating the Reformer를 보며 정리. 트랜스포머 모델에서는 위와 같이 3종류의 어텐션이 있다. 어텐션의 과정을 그림으로 보면 아래와 같다.이때 우측에 it의 어텐션을 모습을 보면 5개를 제외하면, 어텐션을 받지 못했는데, 이때 나머지 didn't

2020년 4월 10일
·
0개의 댓글
post-thumbnail

Reformer 개요

Illustrating the Reformer를 보며 정리.리포머 모델을 2020년에 발표된 모델로 기존 트랜스포머 구조를 개선한 모델이다. Local Sensitve Hashing과 Reversible residual network를 이용해 이전 트랜스 포머 보다 더

2020년 4월 10일
·
0개의 댓글
post-thumbnail

GPT-2 문장 생성 시, 왜 중복이 발생할까

NLP 논문 리뷰 - The Curious case of Neural Text Degeneration을 정리하며 작성.koGPT-2로 학습 시킨 후 문장을 생성할 때, gready search를 통해서 문장을 생성했는데, 문장 생성이 조금 지나면 중복된 문장이 생성이

2020년 4월 9일
·
0개의 댓글
post-thumbnail

자연어처리 Beam Search

텍스트 생성 문제에 대해서 Greedy Search와 Beam Search을 어떻게 사용하는지 How to Implement a Beam Search Decoder for Natural Language Processing블로그를 보고 정리캡션 생성, 요약, 기계 번역은

2020년 3월 27일
·
0개의 댓글

BPE, Byte Pair Encoding

기계 학습 단계에서 학습할 단어를 모아둔것을 단어 집합(vocabulary)이라고 한다. 기계가 학습하지 못한 경우의 단어는 OOV(out of vocabulary)라고 하며, UNK(Unknown Token)이라고 한다. Subword Segmentation은 하나

2020년 3월 24일
·
0개의 댓글