시리즈

Language Modeling

1.[논문리뷰] Representation Degeneration problem in Training Natural Language Generation Models

Word embedding의 Representation degeneration문제에 대해 논하는 시초 격인 논문이다.

2024년 11월 18일

2.[논문리뷰] Titans: Learning to Memorize at Test time

Memory 관점에서 test time learning을 가능케한 새로운 아키텍처이다.

2025년 2월 4일

3.[논문리뷰] Large Language Diffusion Models

기존 Autoregressive language model paradigm에서 벗어나서 Diffusion model을 기반으로 한 Large Language Model이 등장했다.

2025년 2월 19일

4.[논문리뷰] Selective Attention: Enhancing Transformer Through Principled Context Control

해당 논문은 Selective Self Attention layer을 통해서 기존 Key, value 에서의 sparsity 와 relevance control이 어려웠던 문제를 해결하고자 한다.

2025년 3월 5일

5.[논문리뷰] Lexico: Extreme KV cache compression via sparse coding over universal dictionaries

Dictionary Learning을 통해 KV cache를 최적화하는 방식

2025년 6월 18일

6.[논문리뷰] Palu: KV-Cache Compression with Low-Rank Projection

Low rank projection을 통한 KV caching을 제안하는 논문

2025년 6월 25일