임베딩을 만드는 3 철학
back-off : 7-gram으로 예측시 본 적 없는 시퀀스가 발생했다. 그렇다면 6-gram, 5-gram, ... 등으로 빈도를 근사한다. 이때 5-gram 빈도가 존재한다면 적절한 가중치와 오차항을 넣어줘서 보정해준다. ( 예상되는 7-gram의 빈도와 유사하도록 )
smooothing : 시퀀스를 계산하기 전, 등장 빈도 표에 모두 k 만큼 더해준다. 따라서 add-k 라고 불리기도 한다. 만약 k=1 이라면 라플라스 무딩이라고 한다.
분포 가정 : 특정 범위 ( window ) 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 단어 쌍이 비슷한 문맥 환경에서 자주 등장
=================
bpe : byte pair embedding
가장 많이 등장한 문자열을 병합해 문자열을 압축한다.
aaabdaaabac -> aa : Z -> ZabdZabac