시리즈

자연어 논문리뷰

1.[논문리뷰] Attention is All you need

Attention is All you need는 Transformer 모델을 처음 제안한 논문이다. 자연어와 비전영역 모두 중요하게 다뤄지는 모델이기 때문에 논문리뷰도 꼼꼼하게 할 생각이다.논문 링크transformer와 다른 모델간의 차이점을 비교하기 위해 RNN기반

2024년 9월 21일

2.Word2Vec

우선 자연어 처리가 기존의 이미지나 숫자 데이터와 어떤 점에서 다른지 살펴보도록 하자. 자연어 처리는 인간의 언어인 자연어를 컴퓨터가 처리하는 방법을 연구하는 분야이다.당연한 이야기지만, 숫자 데이터는 Titanic 데이터의 pclass, fare와 같이 숫자로 되어

2024년 10월 2일

3.[논문 리뷰] GPT-1(2018) : Improving Language Understanding by Generative Pre-Training

오늘은 2018년에 나온 GPT모델 논문에 대해 소개하려고 합니다.요약에 따르면 unlabel 데이터는 매우 많은 반면, label데이터는 매우 부족하다고 합니다.그래서 unlabel 데이터를 활용하기 위해 모델을 two-stage로 학습을 했다고 합니다.방대한 unl

2024년 10월 9일

4.[논문 리뷰] GPT-2: Language Models are Unsupervised Multitask Learners

이전 GPT-1 논문을 안 읽어보신 분은 아래 포스팅을 참고해주세요!GPT-1 리뷰Question answering, machine translation, reading comprehension, 그리고 summarization과 같은 NLP task들은 주로 supe

2024년 10월 20일

5.[논문 리뷰]Deep contextualized word representations(ELMo)

Word2Vec이나 Skip-gram 등 이전 모델들은 각 단어가 한 개의 벡터로만 표현됩니다. 이렇게 한 개의 벡터로만 표현된다면 문법구조나 다의어에 따른 뜻 변형을 적절히 반영하기 어렵습니다. 예를 들어서 임베딩 방법론으로 present란 단어를 임베딩하였다고 하면

2024년 10월 30일

6.Why are Sensitive Functions Hard for Transformers?(2024)

트랜스포머는 자연어 처리와 기타 다양한 분야에서 뛰어난 성능을 보여주었지만, PARITY와 같은 민감도가 높은 이진 함수를 학습하는 데 어려움을 겪습니다. 이 논문은 트랜스포머의 구조적 한계와 학습 편향을 수학적으로 분석하여, 트랜스포머가 민감도가 높은 함수를 학습하기

2024년 11월 22일

7.Mission Impossible Language Models(2024)

0.0 Abstract 언어모델에 관한 기준 주장과 달리, llm은 인간이 학습할 수 없는 언어를 학습하는데 어려움을 겪는다는 연구 결과가 제시되었다. 연구진은 영어 데이터를 자연스럽지 않은 단어 순서와 문법 규칙으로 조작하여 다양한 복잡도의 불가능한 언어를 설계하였

2024년 11월 22일

8.Theoretical Limitations of Self-Attention in Neural Sequence Models(2020)

이 논문은 Transformer 기반 모델의 이론적 한계를 탐구하며, 특히 Self-Attention 메커니즘의 표현력을 분석합니다. Transformer는 언어 모델링, 기계 번역, 사전 학습된 컨텍스트 임베딩 생성 등 여러 자연어 처리(NLP) 작업에서 탁월한 성과

2024년 12월 1일

9.Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models (2024)

대형 언어 모델(LLM)의 파인튜닝은 다양한 작업에서 효과적인 성능을 발휘하고 있다. 그러나, 파인튜닝 과정에서 모델 가중치, 옵티마이저 상태, 중간 활성값을 저장해야 하므로 막대한 메모리가 필요하다. 기존 기법들은 이를 해결하기 위해 파라미터 효율적 튜닝(PEFT)

2024년 12월 1일

10.DOLA: DECODING BY CONTRASTING LAYERS IMPROVES FACTUALITY IN LARGE LANGUAGE MODELS(2024)

한 문장으로 표현하자면 DOLA는 model의 Forwarding 과정에서 중간 Layer/최종 Layer의 Token Probability 차이를 이용해서 Decoding을 하는 것이다. 그림에 나와있는 것처럼 early exit를 하여 중간 Layer에서의 toke

2024년 12월 7일

11.Contrastive Decoding: Open-ended Text Generation as Optimization(2023)

Open-ended text generation은 prompt가 주어졌을때, 유창하고 일관성 있는 대답을 하는 것을 목적으로 한다. 하지만 likelihood가 가장 높은 sequence를 찾는 decoding은 짧고 반복적이며 유창하지 않은 문장을 생성하는 경향이 있

2024년 12월 7일

12.Dense Passage Retrieval for Open-Domain Question Answering(2020)

이 논문은 Dense representation만을 이용해서 retrieval을 실질적으로 구현할 수 있음을 보였다. 여기서 embeddings는 간단한 dual-encoder framework를 사용해 적은 수의 question과 passage로 학습이 되었다. Du

2024년 12월 15일

13.MuGI: Enhancing Information Retrieval through Multi-Text Generation Intergration with Large Language Models(2024)

Information Retrieval Task에서, LLM을 사용해 여러 text(reference)를 생성 후 Query Expansion하는 방법론 제안Query Expansion : 기존 연구들과 다르게 Zero-shot Prompt를 N번 생성시켜 다양성을 극

2024년 12월 15일

14.HiPPO: Recurrent Memory with Optimal Polynomial Projections(2020)

오늘은 Mamba를 읽기 위해 거쳐야 할 논문인 Hippo를 읽어보려고 한다. Introduction HiPPO 논문은 시계열 모델링을 어떻게 하면 효과적으로 할 수 있을지에 대해 소개하는 논문이다. HiPPO는 long-term sequence modeling 방

2024년 12월 21일

15.Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers(2021)

시계열 데이터는 시간에 따라 변하는 데이터를 분석하고 모델링하는 데 필수적인 영역입니다. 현재 널리 사용되는 딥러닝 모델로는 순환 신경망(RNN), 시계열 합성곱(CNN), 그리고 신경 미분 방정식(NDE)이 있습니다. 각각 고유한 강점과 계산 효율성을 제공하지만, 특

2024년 12월 28일

16.S4: Efficiently Modeling Long Sequences with Structured State Spaces(2022)

시퀀스 모델링의 학습 목표는 LRD(Long Range Dependency)에 대한 다양한 모달리티와 작업에 걸쳐 시퀀스 데이터를 처리할 수 있는 단일 원칙 모델을 설계하는 것이다. RNN과 CNN및 Transformer를 포함한 기존 모델은 LRD를 극복하기 위한 변

2025년 1월 4일

17.Mamba: Linear-Time Sequence Modeling with Selective State Spaces(2024)

Transformer가 거의 모든 분야를 장악한 후 대부분의 연구진들은 Transformer를 뛰어넘을 아키텍쳐가 나올 것인가? 라고 생각한다. 현재 Mamba가 Transformer를 대체할 아키텍쳐라고 불리고 있다. 추론 속도가 transformer보다 빠르지만 성

2025년 1월 12일

18.Byte Latent Transformer(BLT): Patches Scale Better Than Tokens(2024)

이번에 리뷰할 논문은 Byte Latent Transformer논문이다. 기존의 encoding 방식이 정말 최선인지에 대해 의문점을 제시하고 byte단위의 encoding방식이 token단위의 encoding보다 낫다는 것을 보여는 논문이다. 기존의 LLM은 inpu

2025년 1월 26일