# unigram
총 2개의 포스트
토크나이저 정리(BPE,WordPiece,SentencePiece)
이번 글에서는 BPE(Byte-Pair Encoding), WordPiece,SentencePiece에 대해 다룰것이다.
2022년 10월 9일
·
1개의 댓글·
0
SentencePiece 알고리즘 센텐스피스 subword tokenization
Sentencepiece tokenizer는 언어에 무관하고, 띄어쓰기 유무에 영향을 받지 않으며, 매우 빠르고, 더 발전된 언어 모델을 만들 수 있습니다. 그 원리는 무엇일까요?
2021년 10월 11일
·
0개의 댓글·
1