Word embedding의 Representation degeneration문제에 대해 논하는 시초 격인 논문이다.
Memory 관점에서 test time learning을 가능케한 새로운 아키텍처이다.
기존 Autoregressive language model paradigm에서 벗어나서 Diffusion model을 기반으로 한 Large Language Model이 등장했다.
해당 논문은 Selective Self Attention layer을 통해서 기존 Key, value 에서의 sparsity 와 relevance control이 어려웠던 문제를 해결하고자 한다.
Dictionary Learning을 통해 KV cache를 최적화하는 방식
Low rank projection을 통한 KV caching을 제안하는 논문