확률에 기반한 언어 생성 모델은 perplexity 같은 모델의 표준 metric에서는 잘 작동하는데, 텍스트 생성에 있어서는 크게 유창하지는 않다. 이 차이는 몇 년동안 언어 생성에 혼란을 주었다
본 논문에서는 자연어 생성의 abstraction을 discrete stochastic process로 posit한다(이를 통해 확률 기반의 언어 생성에 새로운 시야를 제공해줄 수 있다)
인간은 언어를 소통의 정보로서 사용한다, 사실 인간은 각 단어를 마음에 잠재의식적인 목표를 가지고 말한다고 사회적으로 알려져있다
우리는 기준에 부합하는 set of strings를 정의한다
One of the largest determinants of the generated text’s quality is the choice of decoding strategy—
1. we contend that language generators, in some cases,
can be thought of as discrete stochastic processes.
2 We argue, however, that due to discrepancies between the model behind these generators and the true distribution over natural language strings, directly sampling from the typical set is not a good idea.
논문에서 가정하는 것
제시 방법의 이점
(i) locally typical sampling reduces the number of degenerate repetitions, giving a REP value (Welleck et al., 2020) on par with human text,
(ii) text generated using typical sampling is generally closer in quality to that of human text
1 re-frame their presentation
Eq(1)의 factorization은 언어모델을 single string-valued random variable이 아니라 collection of random variables(즉, a discrete stochastic process)로 볼 것을 제안한다
해당 관점에서 우리는 'language process'라고 말하는 것이 위에서 말한 언어 모델의 정의와는 어떻게 다른지를 구별하는 것에 대해서 다음 정의에 도달한다
정의2.2에서는 language process(샘플링된 단어에서 새로운 단어를 생성하는 것)가 any discrete(별개의) process라고 말한다.
자연스럽게 드는 첫번째 의문은 언어모델과 language process가 충돌할 떄인데, 여기 간단한 답이 있다.
a language process가 infinite strings로 probability mass를 leak 해서는 안된다. 왜냐하면 언어모델이 (valid) probability distribution이어야 하기 때문에 tight해야 하기 때문이다
두 경우 모두 증명을 만족한다
우리는 language process가 language models보다 약간 더 엄격하다는 것을 알 수 있다
Life after EOS?
Proposition 2.4 는 language models와 language process간의 더 직관적인 차이에 힌트를 준다. EOS 후에 어떠한 일이 발생하는가? language model의 전통적인 정의에서(Def 2.1) life는 EOS에서 끝난다
반면에, language process는 더 chipper한 시야를 제공한다
어떠한 레벨에서 이것은 함축적인 시야이다
해당 논문의 뒤에서는 이를 보고, language process를 고려해본다
Many language processes are explicitly defined to be Markov
While not theoretically Markovian, human language is generally considered stationary, i.e., the probability distribution over the next word should not depend on absolute position, but rather the history.
entropy rate는 limit에서 how spread out의 관점에서 유용하다
다른 해석은 그것이 Y의 complexity를 quantifies한다는 것이다
What’s wrong with the typical set?
해당 연구에서 기여한 바는 to define a more restrictive notion of typicality
two distribution
1. pe, the distribution that a speaker of the language is assumed to generate strings from,
2. pb our language process that approximates pe—albeit, perhaps not perfectly.
what are the information-theoretic characteristics of natural language typically produced by humans.
1 a language user’s objective
how to decode from p
가장 intuitive strategy는 ancestral sampling
본 논문에서는 general treatment of truncated sampling를 줌
First, the connection between probability and information content may explain why high-probability text is often dull or generic (Holtzman et al., 2020; Eikema and Aziz, 2020);its low information content likely makes for boring, i.e., uninformative, text
A further implication of this framing is the equivalence between decoding strings from a probabilistic language generator and sampling messages from the natural language communication channel.
Computational Complexity
nucleus or top-k sampling와 실질적으로 비슷한 효용을 보일 수 있다
1 conditional entropy 계산
2 sort words by their absolute distance
3 greedily take words from this list until their cumulative probability exceeds the threshold τ
Relationship to Other Decoding Strategies.
우리 방법도 다른 방법들과 유사하다
사전 계산이 필요하지 않다는 장점이 있는데도 이전 방법들과 유사하게 human-generated text에서 exhibit된 내용과 유사한 경향을 보임
Hyperparameters.
For locally typical sampling, we found τ = 0.2, τ = 0.95 to provide the best results for story generation and abstractive summarization, respectively
locally typical sampling—leads to text of comparable or better quality than other stochastic decoding strategies according to human ratings
사람이 대화할 때 다음에 무슨 말을 할지 어느정도 생각하면서 그런 잠재의식이 사회심리학적으로 존재해서, 그러한 set of strings를 정의해서, 주어진 정보로부터 가장 근접한 정보를 만들어내고자 하는 새로운 디코딩 방법을 만듦(locally typical sampling)
conditional entropy를 사용.
5.2 top-p sampling과 다른 점은 'high-probability words should not be chosen'를 함축하지 않는 다는 것. 실제로, where conditional entropy is low일때로 즉, 모델이 작은 단어의 집합의 probability mass에 위치할 때다
5.2 사전 계산이 필요하지 않다는 장점이 있는데도 이전 방법들과 유사하게 human-generated text에서 exhibit된 내용과 유사한 경향을 보임
6 실험 표를 확인해보면, 0.2나 0.9를 변수로 두어서 사용
typical_p (float, optional, defaults to 1.0) — The amount of probability mass from the original distribution to be considered in typical decoding. If set to 1.0 it takes no effect
https://huggingface.co/docs/transformers/v4.25.1/en/main_classes/text_generation#transformers.GenerationMixin.generate
1로 두면 효과가 없다 -> 이걸 낮추자는 것이 이 논문의 아이디어 같은데.. 꼭 높다고 좋은게 아니다 !!!
안녕하세요 fla1512님 !
디코딩 방식에 대해서 여러 개 공부해보고 있었는데 이 포스트가 도움이 되었어요 ~.~ 감사합니다 !