Reformer Chunking

Illustrating the Reformer를 보며 정리.리포머는 피드포워드 레이어의 4K 이상 갈수 있는 고차원 벡터들의 메모리를 줄인다. 피드포워드레이어의 각 부분은 위치와 관계없이 독립적이기 때문에 청크 단위로 잘라서 계산이 가능하다. 따라서 메모리에 올라갈때,

2020년 5월 11일
·
0개의 댓글

torch.gather란

간혹 깃헙을 보다보면 torch gether를 볼수가 있는데 어떻게 동작하는 건지 잘 이해되지 않아 정리해본다.input 텐서가 입력으로 주어지고, 차원 dim을 따라서 각 행으로부터 값을 취해, 새로운 텐서를 반환한다. torch.LongTensor를 index로

2020년 4월 24일
·
0개의 댓글

리포머의 Reversible Transformer

Illustrating the Reformer를 보며 정리.트랜스포머에서 인코더와 디코더 레이어를 여러개를 쌓을 때, Residual Network에서 역전파를 위해 그래디언트 값들을 저장하고 있다. 이때 저장하고 있는 값들이 매우 많아, 큰 트랜스포머 모델을 사용할

2020년 4월 21일
·
0개의 댓글

LSH Attention

Q와 K 매트릭스의 LSH 해시를 찾는다같은 LSH를 거쳐서 같은 버켓 안에 있는 $k$와 $q$에 대해서 아래 어텐션을 계산한다.충분히 가까운 항목들이 다른 버켓에 빠지지 않도록, LSH를 여러번 반복한다.LSH로 query, key들에 대해 버켓팅버켓에 따라 정렬청

2020년 4월 21일
·
0개의 댓글

Top-p 샘플링 aka. Nucleus Sampling

How to sample from language models 을 보며 정리GPT-2로 텍스트를 생성하다보면, 랜덤 샘플링이나 Top-k 샘플링 등을 사용해도 문맥이 잘 맞지 않는다고 생각이 된다. 추가로 다른 방법 중 Top-p, Nucleus 샘플링을 찾을 수 있다

2020년 4월 17일
·
0개의 댓글

피처베이스(feature-based)와 파인튜닝(fine-tuning) 학습의 차이

논문이나 책을 읽다보면 피처베이스와 파인튜닝 부분을 학습에 대해 종종 볼 수 있는데, 그 차이는 다음과 같다.파인튜닝(fine-tuning): 임베딩까지 모두 업데이트하는 기법피처베이스(feature-based): 임베딩은 그대로 두고 그 위에 레이어만 학습 하는 방법

2020년 4월 15일
·
0개의 댓글

Downstream Task란?

딥러닝 관련 글들을 보면 최근 다운스트림 태스크에 대한 부분을 많이 볼 수 있다. 몇몇 글들을 찾아보다보면 잘 이해가지 않는 부분이 있었다가 한국어임베딩 책에서 적절한 설명을 찾았다.한마디로 구체적으로 풀고 싶은 문제들을 말한다. 최근 자연어 처리분야에서는 언어모델

2020년 4월 15일
·
0개의 댓글

Reformer LSH(Locality sensitive hashing)

Illustrating the Reformer를 보며 정리. 트랜스포머 모델에서는 위와 같이 3종류의 어텐션이 있다. 어텐션의 과정을 그림으로 보면 아래와 같다.이때 우측에 it의 어텐션을 모습을 보면 5개를 제외하면, 어텐션을 받지 못했는데, 이때 나머지 didn't

2020년 4월 10일
·
0개의 댓글
post-thumbnail

GPT-2 문장 생성 시, 왜 중복이 발생할까

NLP 논문 리뷰 - The Curious case of Neural Text Degeneration을 정리하며 작성.koGPT-2로 학습 시킨 후 문장을 생성할 때, gready search를 통해서 문장을 생성했는데, 문장 생성이 조금 지나면 중복된 문장이 생성이

2020년 4월 9일
·
0개의 댓글