
Attention is All you need는 Transformer 모델을 처음 제안한 논문이다. 자연어와 비전영역 모두 중요하게 다뤄지는 모델이기 때문에 논문리뷰도 꼼꼼하게 할 생각이다.논문 링크transformer와 다른 모델간의 차이점을 비교하기 위해 RNN기반
우선 자연어 처리가 기존의 이미지나 숫자 데이터와 어떤 점에서 다른지 살펴보도록 하자. 자연어 처리는 인간의 언어인 자연어를 컴퓨터가 처리하는 방법을 연구하는 분야이다.당연한 이야기지만, 숫자 데이터는 Titanic 데이터의 pclass, fare와 같이 숫자로 되어

오늘은 2018년에 나온 GPT모델 논문에 대해 소개하려고 합니다.요약에 따르면 unlabel 데이터는 매우 많은 반면, label데이터는 매우 부족하다고 합니다.그래서 unlabel 데이터를 활용하기 위해 모델을 two-stage로 학습을 했다고 합니다.방대한 unl

이전 GPT-1 논문을 안 읽어보신 분은 아래 포스팅을 참고해주세요!GPT-1 리뷰Question answering, machine translation, reading comprehension, 그리고 summarization과 같은 NLP task들은 주로 supe

Word2Vec이나 Skip-gram 등 이전 모델들은 각 단어가 한 개의 벡터로만 표현됩니다. 이렇게 한 개의 벡터로만 표현된다면 문법구조나 다의어에 따른 뜻 변형을 적절히 반영하기 어렵습니다. 예를 들어서 임베딩 방법론으로 present란 단어를 임베딩하였다고 하면

트랜스포머는 자연어 처리와 기타 다양한 분야에서 뛰어난 성능을 보여주었지만, PARITY와 같은 민감도가 높은 이진 함수를 학습하는 데 어려움을 겪습니다. 이 논문은 트랜스포머의 구조적 한계와 학습 편향을 수학적으로 분석하여, 트랜스포머가 민감도가 높은 함수를 학습하기

0.0 Abstract 언어모델에 관한 기준 주장과 달리, llm은 인간이 학습할 수 없는 언어를 학습하는데 어려움을 겪는다는 연구 결과가 제시되었다. 연구진은 영어 데이터를 자연스럽지 않은 단어 순서와 문법 규칙으로 조작하여 다양한 복잡도의 불가능한 언어를 설계하였

이 논문은 Transformer 기반 모델의 이론적 한계를 탐구하며, 특히 Self-Attention 메커니즘의 표현력을 분석합니다. Transformer는 언어 모델링, 기계 번역, 사전 학습된 컨텍스트 임베딩 생성 등 여러 자연어 처리(NLP) 작업에서 탁월한 성과

대형 언어 모델(LLM)의 파인튜닝은 다양한 작업에서 효과적인 성능을 발휘하고 있다. 그러나, 파인튜닝 과정에서 모델 가중치, 옵티마이저 상태, 중간 활성값을 저장해야 하므로 막대한 메모리가 필요하다. 기존 기법들은 이를 해결하기 위해 파라미터 효율적 튜닝(PEFT)

한 문장으로 표현하자면 DOLA는 model의 Forwarding 과정에서 중간 Layer/최종 Layer의 Token Probability 차이를 이용해서 Decoding을 하는 것이다. 그림에 나와있는 것처럼 early exit를 하여 중간 Layer에서의 toke

Open-ended text generation은 prompt가 주어졌을때, 유창하고 일관성 있는 대답을 하는 것을 목적으로 한다. 하지만 likelihood가 가장 높은 sequence를 찾는 decoding은 짧고 반복적이며 유창하지 않은 문장을 생성하는 경향이 있

이 논문은 Dense representation만을 이용해서 retrieval을 실질적으로 구현할 수 있음을 보였다. 여기서 embeddings는 간단한 dual-encoder framework를 사용해 적은 수의 question과 passage로 학습이 되었다. Du

Information Retrieval Task에서, LLM을 사용해 여러 text(reference)를 생성 후 Query Expansion하는 방법론 제안Query Expansion : 기존 연구들과 다르게 Zero-shot Prompt를 N번 생성시켜 다양성을 극

오늘은 Mamba를 읽기 위해 거쳐야 할 논문인 Hippo를 읽어보려고 한다. Introduction HiPPO 논문은 시계열 모델링을 어떻게 하면 효과적으로 할 수 있을지에 대해 소개하는 논문이다. HiPPO는 long-term sequence modeling 방

시계열 데이터는 시간에 따라 변하는 데이터를 분석하고 모델링하는 데 필수적인 영역입니다. 현재 널리 사용되는 딥러닝 모델로는 순환 신경망(RNN), 시계열 합성곱(CNN), 그리고 신경 미분 방정식(NDE)이 있습니다. 각각 고유한 강점과 계산 효율성을 제공하지만, 특

시퀀스 모델링의 학습 목표는 LRD(Long Range Dependency)에 대한 다양한 모달리티와 작업에 걸쳐 시퀀스 데이터를 처리할 수 있는 단일 원칙 모델을 설계하는 것이다. RNN과 CNN및 Transformer를 포함한 기존 모델은 LRD를 극복하기 위한 변

Transformer가 거의 모든 분야를 장악한 후 대부분의 연구진들은 Transformer를 뛰어넘을 아키텍쳐가 나올 것인가? 라고 생각한다. 현재 Mamba가 Transformer를 대체할 아키텍쳐라고 불리고 있다. 추론 속도가 transformer보다 빠르지만 성

이번에 리뷰할 논문은 Byte Latent Transformer논문이다. 기존의 encoding 방식이 정말 최선인지에 대해 의문점을 제시하고 byte단위의 encoding방식이 token단위의 encoding보다 낫다는 것을 보여는 논문이다. 기존의 LLM은 inpu