논문출처 : https://arxiv.org/abs/1907.11692 사실상 연구가 진행되는 기간까지 생각하면 GPT-2와 거의 같은 시기에 연구가 진행되고 같은 시기에 발표가 되었다고 볼 수 있다. BERT의 후속연구이며 BERT에 제시되는 여러가지 약점과 단점을
논문 출처 : https://d4mucfpksywv.cloudfront.net/better-language-models/languagemodelsareunsupervisedmultitask_learners.pdf GPT-2의 논문 발표가 BERT를 의식한 듯 꽤 빠르
(1) Passage Retrieval - Scaling Up 1) Passage Retrieval and Similarity Search Dense Retrieval이던 Sparse Retrieval이던 Passage Embedding이 잘 끝났다면 다음은 Query와 Passage간의 Similarity가 높은 매칭을 찾는, 즉 Similarity Se...
Passage Retrieval는 Open-domain QA task에서 질문에 맞는 문서(Passage)를 찾는 과정을 뜻한다. Open-domain QA는 보통 질문의 답을 얻을 수 있는 문서가 Pair로 주어지지 않고 전체 Corpus안에서 답변을 찾아야 하기 때문에 이런 과정이 필요한 것이다. Passage Retrieval를 통해 Query와 P...
Generation-based MRC는 주어진 지문과 질의(question)를 보고 답변을 생성하는 Generative task이다. 이전의 Extraction-based MRC는 각 토큰이 answer span의 시작과 끝이 될 수 있는지를 분류하는 문제였다면 Generation-based MRC는 Language Modeling 처럼 text를 생성하는...
(1) Introduction to MRC MRC(Machine Reading Comprehension) 은 주어진 지문(Context)를 이해하고, 주어진 질의(Question)의 답변을 추론하는 문제이다. 종류에는 질의에 대한 답이 항상 주어진 지문의 span으로 존재하는 Extractive 와 지문의 span이 아닌 질의를 보고 생성된 sentence...
지난 2021/9/28 ~ 2021/10/7 까지 약 2주의 기간동안 KLUE 데이터셋을 활용한 NLP 관계 추출 Task를 진행했다. 본 글은 해당 프로젝트의 레포트 및 개인 회고글의 내용을 담고 있다. 1. Team report (1) 프로젝트 개요 KLUE RE Dataset으로 주어진 문장의 지정된 두 Entity의 관계를 추출, 분류하는 Task...
논문 출처 : https://arxiv.org/abs/1802.05365 참고 자료 : https://jalammar.github.io/illustrated-bert/ (모델을 설명하기 위한 표와 그림은 논문과 참고 자료에서 가져왔음을 밝힘) ELMo는 2018년 발표된 논문으로 Pretraining을 Language Model로 진행하는 approac...
논문 출처 : https://arxiv.org/abs/1810.04805 1. Introduction Language model을 통한 pretraining은 큰 성과를 얻었고 크게 주목을 받았다(ELMO, GPT-1, ULMFiT 등). NER같은 Token-level task 뿐만 아니라 sentence-level task와 그 이상의 task들에도 ...
논문 출처 : https://openai.com/blog/language-unsupervised/ 1. Introduction NLP의 다양한 task들은 거의 대부분 충분한 labeled data들을 요구하며 이를 통해 Supervised learning으로 해결해왔다. 그러나 이런 labeled data들은 항상 충분하지 않으며 task에 따라 부족한...
논문 출처 : https://arxiv.org/abs/1706.03762 1. Introduction RNN과 LSTM, GRU 같은 RNN 계열 시퀀스 모델은 기계번역이나 언어모델같은 task에서 성능을 올리는데 큰 공을 세웠다. 그러나 Recurrent 모델에서 time step으로 나뉘는 특성상 parallelization을 막는 크나큰 단점이 있었...
논문 출처 : https://arxiv.org/abs/1508.04025 이전 Seq2Seq를 소개한 논문에 대해 다룬 적이 있다(https://velog.io/@donggunseo/Seq2Seq). 여기에 요즘 핫하다고 하는 Attention 기법이 적용된 스탠포드
논문출처 : https://arxiv.org/abs/1409.3215 Seq2Seq는 구글에서 Sequence를 input으로 새로운 Sequence를 잘 만들어내기 위해 고안된 모델이다. 시퀀스 데이터의 특징을 이해하고 이를 위한 모델인 RNN 계열 모델을 통해 단순히 이를 분류하거나 추론하는 task가 아닌 기계 번역, 질의응답 같은 전혀 새로운 시퀀...
(1) Beam Search 이전에 Seq2Seq에 대해 다룰 때 Decoder에서 최종적으로 추론하는 과정의 기억을 되살려보자. 최종 추론 단계에선 각 time step마다의 output을 그대로 다음 time step의 input으로 이용하였다. 이 과정을 Greedy decoding이라고 한다. 즉, 현재 time step에서 그때그때 가장 높은 확률...
Bag-of-Words(Naive Bayes Classifier) 흔히 얘기하는 통계적 방법의 NLP이다. 텍스트 데이터 속 무수히 많은 단어들을 one-hot vector로 만들고 각 문장들을 이 one-hot vector로 표현하는 방식이라 할 수 있다. Naive Bayes Classifier는 단어-문맥 행렬을 통해 단어의 빈도를 파악하고 이를 베...
2021년 8월 23일 ~ 2021년 9월 2일 본 글은 지난 2주동안 진행했던 Boostcamp AI-Tech 첫 p-stage인 Image Classification 대회 프로젝트의 Wrap-up report이다. 본래 report 형식에 따라 팀 제출 레포트를 먼저 올리고 이후 본인이 얻은 insight들에 대한 내용들을 이어나가겠다. 1. 팀 레...
논문 출처 : Glove: Global Vectors for Word Representation 참고 자료 : ratsgo.github.io Glove는 2014년 스탠포드대학교연구팀에서 개발한 단어 임베딩 방식으로 Word2Vec의 단점을 언급하며 더욱 나은 방법론을 소개하였다. 1. 기존 방법론들의 단점과 Gloved의 목적성 저자는 현재 단어 벡터...
단어의 분산표현(Distributed Representation)의 시초라고 할 수 있는 Natural Probabilistic Language Model에 대해 알아보자