NLP 모델에서 문자열을 모델에 입력하기 위해 이를 토큰화하고 숫자로 바꾸는 과정이 필요하다.
문자열을 토큰으로 바꾸는 과정
labels = self.tokenizer.encode(text).ids
토큰을 문자열로 바꾸는 과정
label_str = tokenizer.decode_batch(label.tolist(), skip_special_tokens=True)
그런데, 사전에 없는 문자열이 등장할 경우 UNK토큰으로 생성된다.
나는 huggingface에 구현된 cer metric을 사용할 때, ValueError: one or more groundtruths are empty strings
이러한 에러를 만났다.
이유는 empty string인 label이 존재했기 때문이다.