ELECTRA ICLR 2020 (google research) Efficiently Learning an Encoder that Classifies Token Replacements Accurately. MLM (Masked Language Model, bidire
Abstract 요약 테스크에 대한 논문 의미 그래프를 담기 위해서 GNN을 주로 사용했음 긴 텍스트에서 사용하기 위한 좀 더 효율적인 모델 적은 메모리와 파라미터로 Rouge, F1 좋은 점수를 냈다. HETFORMER on Summarization 토큰, 문장,
Under review at ICLR 2022, Facebook AI Research
MPNet은 BERT와 XLNet의 장점을 취하고 한계를 보완하는 방식의 pretraining 기법을 제안한다.
TAPAS 다음으로 나온 논문 (ACL 2022)으로 테이블 구조를 이해하는 언어모델이다.
In-batch negative를 MLM에 적용시킨 논문
단어 유사도를 이용해서 sparse transformer 만들어낸 논문
MRTD(multi-lingual replaced token detection), TRTD(translation replaced token detection) 두 가지 loss 사용해서 ELECTRA multilingual 모델을 만들었다
NeurIPS 2020, CMU와 구글 브레인에서 나온 논문 Hourglass (Hierarchical Transformers Are More Efficient Language Models) 모델을 보다보니, 이 논문을 짚고 넘어가야할 것 같아서 보게 되었음. 이 논문에서는 한 문장을 그 문장을 구성하는 전체 토큰 길이의 벡터로 표현한다는 것이 중복 문제...
Sentence embedding, STS task에서 현재 기준 SOTA 수준에 있는 연구 중 하나인 ESimCSE 페이퍼에 대한 설명
Sentence similarity task에서 가장 높은 점수를 기록한 모델이다. (EMNLP 2022 main)
Rerank 관련, google 에서 공개한 논문이다.
Query expansion을 비교적 간단한 방식으로 진행하여 MS-MARCO, TREC DL에서의 점수를 올렸다. 이 페이퍼에서 제시한 방법의 결과인 데이터는 아래에 공개되었다. https://huggingface.co/datasets/intfloat/que
데이터가 없을 때 어떻게 dense retrieval을 하기 위한 방법을 고민한 논문이다. 데이터가 없는 상황에서는 필요한 데이터를 먼저 마련해야한다.
google research 모델. t5x_retrieval 깃헙에 소스와 함께 공개되었다.
Google research. (들어가는 질문) Self-attention의 시간과 공간복잡도는? Self-attention의 시간과 공간복잡도가 그렇게 되는 이유는? 점수 차가 거의 없는 것을 확인할 수 있다. (질문) 아래 두 수식이 사실상 같은가? We initialize the vector $v∗$ ∈ $R^d$ and sca
LLM에서 검색 모듈 없이 Open domain QA 진행하는 두 가지 연구를 소개한다.
NIPS 2023 main에 올라간 페이퍼로, LLM을 이용해 language 이해를 넘어 language-vision 동시에 같이 이해하는 GPT-like 멀티모달 LLaVA를 만들었다.
Contrastive decoding 이전 연구(Contrastive Decoding: Open-ended Text Generation as Optimization)에서 디코딩 과정에서 ExpertLM에 더해서 작은 모델인 Amateur LM을 같이 사용함으로써 hallucination을 줄일 수 있는 방법에 대해서 제시한다. 그림에서 볼 수 있듯이 로...
FunSearch는 2023년 12월 말에 나온 Deepmind 논문으로 Nature에 실렸다고 한다. Open problem에 대해서 기존에 인간이 풀었던 방식 이외로의 해결방식을 제시했다.
LLM을 보완하기 위해 RAG 방식을 사용하는데, RAG에서 관련성이 없는 문서를 가져오는 경우를 최소화하기 위한 방식으로 CRAG를 제안한다.