첫 논문 리뷰를 시작하며,아직 많이 부족하기에 논문 리뷰라고 하더라도 부족한 점이 많을 것 같다. 그래도 가장 기초적인 논문이기도 하고 RNN 모델에 어느 정도 익숙한 터라 나쁘지 않았던 것 같다.오류가 있거나 틀린 부분에 대한 지적은 항상 환영입니다 :)NLP에서 A
저번 Attention 논문 이전 Base가 되는 논문이라고 할 수 있는 Seq2Seq 논문을 읽었습니다. 논문 자체는 상당히 쉽게 서술되어 있고 LSTM이나 RNN에 익숙하다면 어렵지 않게 읽을 수 있었습니다.내용을 보다보면 Beam Serach에 대한 부분이 나타나
드디어 세번째 논문 리뷰이다. Word2Vec 1이라고 불리는 논문이며, one-hot encoding 방식이나 밀집표현 방식에 불과했던 Word Embedding을 보다 효율적으로 그리고 정확도를 높였다는 평가를 받는다. > 방식 자체가 어렵지는 않으나 논문에 자세한
Word2Vec의 후속 논문이라고 할 수 있는 논문은 word embedding을 진행할 때에 어떻게 하면 더욱 효과적으로 그리고 빠르게 학습을 시킬 수 있을까에 대한 논문이었다. > 논문 자체에 개념들이 자세히 설명이 되지는 않아 이번에는 논문을 번역식으로 리뷰하기
세번째로 선정한 프리뷰는 논문에서 짧게나마 등장하는 시퀀스 계산을 줄이기 위한 모델들을 선정했다. > 해당 내용들이 현재는 사용되지 않기 때문에 깊게는 연구해보지 않았으나 어느 정도의 기초체력은 필요하다고 생각해 공부해보았다. 💡 End to End memory
드디어 Transformer 논문 프리뷰를 마치고 이제 본편을 시작하고자 한다. 배보다 배꼽이 큰 것 같지만 그것이 공부 아닌가. Transformer 논문은 정말 공부해볼 지점이 많은 것 같다. > 특히나 Encoder 부분은 많은 블로그나 게시글에서 인사이트를 볼
BERT의 논문에 대한 프리뷰이기도 하면서 Byte Pair Embedding에 대한 내용을 정리한 글이다. 해당 내용 역시, 많은 NLP 모델에서 사용되는 SentencePiece, Hugging Face를 이해하기 위한 기초정보라 판단되어 다루고자 한다.딥러닝 공
BERT는 2018년에 나타난 모델임에도 불구하고 여전히 사랑받고 있는 모델입니다. 비록 최근에는 GPT-3, Open-AI 등도 나타났지만 pre-trained된 모델을 사용하게 되면 어느 정도의 성능을 보장한다는 큰 매력이 있습니다. > 해당 논문을 다루기 이전에
상편을 쓰고 귀찮아하는 제 표정 절대 아닙니다. > 앞의 WordPiece와 BERT 상편에서 이어지니 보고 오시는 것을 개인적으로 추천드립니다. 🔬 Experiment and Result BERT는 총 11개의 NLP 분야에서 학습을 시켰고 이들을 종합해서
출처 : 추억의 sakeLBERT 논문에서 가장 많이 등장하고 관련된 논문인 ELMo 논문. 두 논문 모두, 당시 NLP에서의 한계점이었던 단어 예측에 있어서의 돌파구를 마련하기 위한 노력이었다.ELMo의 경우, 2018년 논문임에도 불구하고 당시 인기를 끌었던 Tra
너무 좋아서 소리지르는 겁니다ㅎㅎ,,,ELMo 논문의 Evaluation과 Analysis 부분을 다루고자 한다. 내용 자체가 많다기 보다는 논문 자체의 해석이 쉽지 않은 편이라 어떤 의미를 전달하려고 했는지를 중점으로 얘기해보고자 한다. 앞서, ELMo의 구조와 학습
Attention is all you need 논문을 리뷰하는데 있어서 참고가 될 만한 개념들을 정리했습니다. Transformer 논문 자체가 매우 어렵기 때문에 Attention 부터 시작해 흐름으로 파악하지 못한다면 이해하는 것이 매우 어렵습니다. 저 역시 여전히
프리뷰만 몇 편을 작성할지 걱정되는 가운데 두번째로 Postional Encoding과 Residual Connection을 선정했다. Residual의 경우 Resnet 부분을 약간 다루고자 한다. 💡 Positional Encoding 기존의 RNN이 자연어
부스트캠프 스터디원분들과 진행한 논문 스터디에서 이번주에는 Skip-Thought Vectors라는 생소한 논문을 리뷰했다. Skip-gram과 Word2Vec, Seq2Seq까지 Transformer가 나타나기 이전에 word embedding에서 한 획을 그었다 할
대회와 프로젝트를 진행하며 가장 많이 사용했던 RoBERTa 모델. KLUE에서 Huggingface에 공개하기도 했고 한국어로 pre-trained가 매우 잘 되어 있어 여러 task에 fine-tuning하기 적합했다.하지만 BERT 기반에 학습법만 다르게 했던 모
RoBERTa에서도 알 수 있듯 Attention을 활용한 Encoder를 쌓은 BERT 구조는 매우 강력한 성능을 자랑한다. 데이터만 확보가 된다면 문장들을 임베딩해 높은 성능의 결과물도 내보내게 된다.하지만 BERT는 Encoder지만 Encoder 본질의 역할보다
SBERT 논문을 읽던 중에 어떤 모델이 가장 성능이 높은지를 분석하기 위해 STS Dataset의 label과 그것에 대해 모델이 내보낸 값에 대한 상관관계로 Pearson 상관관계가 아닌 Spearman 상관계수를 사용했다고 말한다. 그러면서 이유를 저자의 다른 논
대회와 프로젝트를 진행하며 정말 많이 들었던 DAPT와 TAPT. 2020년에 ACL에서 최우수 논문으로 선정되기도 했으나 제대로 읽어본 적이 없어 아쉬웠다. DAPT와 TAPT를 진행하면 성능이 상승된다는 얘기도 들었으나 정확한 구현방식을 알지못해 사용해보지 못했던
지난주부터 CV 논문 리뷰를 시작했다. 그것의 첫 시작으로 AlexNet을 선택했다. 지금까지 NLP 위주로 공부를 진행해왔기에 조금은 어색하기도 하지만 딥러닝을 이해하기 위해서는 넓은 분야에 대해 알아야 하기 때문에 도전해보았다.CV 논문을 리뷰하다 보면 어려운 부분
Transformer를 이미지에 적용하며 처음으로 괜찮은 성과를 낸 모델이자 그것의 시초가 된 모델이다. NLP를 공부하며 많이 봤었던 Transformer이기에 문제 없이 읽었으나 조금 어려웠던 부분들이 있어 해당 부분은 이후에 따로 정리해보고자 한다.NLP분야에서
모델에게 Reasoning을 어떻게 더 잘 학습시킬까 고민하다가 발견한 논문.https://arxiv.org/pdf/2310.01798.pdfreflection과 같은 방법론들에서 self-correct(self-refine, self-improve 등등)하는
https://arxiv.org/pdf/2203.11171.pdf위논문에서도 해당 방식으로 모델 성능이 많이 오른다고 밝힘사람이 reasoning 문제를 해결할 때에 여러 가지 방법론을 생각해보는 것과 유사한 방식의 방법론.하나의 모델에서 다양한 reasoni
https://arxiv.org/pdf/2311.09277.pdf제목에서 너무 많은 기대를 했으나 기존 sample(valid sample)과 invalid sample(오답 유형들)을 주는 prompt를 사용한 방식카테고리는 위처럼 다섯가지로 나누어(stan
https://aclanthology.org/2023.acl-long.153.pdfinvalid sample을 주더라도 생각보다 잘 한다는 것CoT를 제공할 때에 invalid한 sample들을 주어도 성능의 80-90%는 얻을 수 있다. 그렇다면, CoT의
https://arxiv.org/pdf/2212.10071.pdf거대 모델을 사용 reasoning을 생성해낸다.그리고 그것을 작은 모델에 학습시킴작은 모델에게 있어 rationale 없이 reasoning task를 하는 것은 매우 어렵고 데이터를 생성하는
https://arxiv.org/pdf/2310.07088.pdfdiversity를 prompt에서 어떻게 하면 줄 수 있을까약간 SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS
https://arxiv.org/pdf/2312.08901.pdfCoT로 few-shot learning을 할 때에 더 많은 sample들을 넣으면 general하게 성능이 올라가는 경향을 보이던데, input length에 제한이 있으므로pruning을 통해
https://openreview.net/pdf?id=tmsqb6WpLz해당 논문은 아래의 수식에서 출발한다.topic은 글의 주제(글이 속하는 domain) style은 글의 유형(전체적인 흐름) 그리고 factual은 글에서 나오는 사실들(글의 구성요소들)
https://arxiv.org/pdf/2301.12726.pdf일반적으로 query가 주어지고 그에 대한 answer를 주는 QA와 달리 multi-step reasoning은 LM에게 해당 정답이 나올 때까지의 추론 과정을 요구한다. mult-step 자체