여러 사람 구하는 Transformers 라이브러리. 그중 CTCTokenizer을 한번 따로 뽑아보자.
from transformers import Wav2Vec2CTCTokenizer
tokenizer = Wav2Vec2CTCTokenizer(path, unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
print(tokenizer)
'''
#결과
PreTrainedTokenizer(name_or_path='', vocab_size=127, model_max_len=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'})
'''
공간이 부족해서 vars만 뽑아봤지만 dir을 보면 많은 함수가 내장되어 있다. 함수들 이름도 직관적이고 잘 정리되어 쓰기 편하다. 지금 하고 있는 연구과제 언어가 일본어여서 보면 vocab이 일본어 히라가나다.