Tokenizers throwing warning "The current process just got forked, Disabling parallelism to avoid deadlocks.. To disable this warning, please explicitly set TOKENIZERS_PARALLELISM=(true | false)"
HuggingFace에서 FastTokenizer
를 사용하고 DataLoader로 Multiprocessing 시 발생하는 이슈.
DataLoader를 이용해 iterating 하기 전에 Tokenizer를 사용하면 안된다고 함.
전체를 토크나이징을 미리 해서 사용하던가 normal tokenizer를 사용해야 함.
os.environ["TOKENIZERS_PARALLELISM"] = "true" # or "False"
관련한 내용이 아래 링크에 자세히 나와있음.