[Warning] Tokenizers throwing warning "The current process just got forked...

황준하·2023년 6월 1일
0

DataLoader 사용 시 num_workers 값을 주어 멀티프로세싱 할 때 warning

Tokenizers throwing warning "The current process just got forked, Disabling parallelism to avoid deadlocks.. To disable this warning, please explicitly set TOKENIZERS_PARALLELISM=(true | false)"

HuggingFace에서 FastTokenizer를 사용하고 DataLoader로 Multiprocessing 시 발생하는 이슈.

DataLoader를 이용해 iterating 하기 전에 Tokenizer를 사용하면 안된다고 함.

해결 방법

  1. 전체를 토크나이징을 미리 해서 사용하던가 normal tokenizer를 사용해야 함.

  2. os.environ["TOKENIZERS_PARALLELISM"] = "true" # or "False"

관련한 내용이 아래 링크에 자세히 나와있음.

https://stackoverflow.com/questions/62691279/how-to-disable-tokenizers-parallelism-true-false-warning

0개의 댓글