# BytePair Encoding

1개의 포스트
post-thumbnail

SentencePiece 알고리즘 센텐스피스 subword tokenization

Sentencepiece tokenizer는 언어에 무관하고, 띄어쓰기 유무에 영향을 받지 않으며, 매우 빠르고, 더 발전된 언어 모델을 만들 수 있습니다. 그 원리는 무엇일까요?

2021년 10월 11일
·
0개의 댓글