[NLP] UNK 토큰 에러

기린이·2022년 8월 10일

모아두기🔧

목록 보기

34/39

NLP 모델에서 문자열을 모델에 입력하기 위해 이를 토큰화하고 숫자로 바꾸는 과정이 필요하다.

문자열을 토큰으로 바꾸는 과정
labels = self.tokenizer.encode(text).ids
토큰을 문자열로 바꾸는 과정
label_str = tokenizer.decode_batch(label.tolist(), skip_special_tokens=True)

그런데, 사전에 없는 문자열이 등장할 경우 UNK토큰으로 생성된다.

나는 huggingface에 구현된 cer metric을 사용할 때, ValueError: one or more groundtruths are empty strings 이러한 에러를 만났다.

이유는 empty string인 label이 존재했기 때문이다.

중요한 것은 속력이 아니라 방향성, 공부하며 메모를 남기는 공간입니다.