# unigram

2개의 포스트

토크나이저 정리(BPE,WordPiece,SentencePiece)

이번 글에서는 BPE(Byte-Pair Encoding), WordPiece,SentencePiece에 대해 다룰것이다.

2022년 10월 9일
·
1개의 댓글
·
post-thumbnail

SentencePiece 알고리즘 센텐스피스 subword tokenization

Sentencepiece tokenizer는 언어에 무관하고, 띄어쓰기 유무에 영향을 받지 않으며, 매우 빠르고, 더 발전된 언어 모델을 만들 수 있습니다. 그 원리는 무엇일까요?

2021년 10월 11일
·
0개의 댓글
·