Huggingface는 Transformers 라이브러리를 구축하고 유지하고 있는 회사이다.
이 라이브러리를 통해 오늘날 사용 가능한 대부분의 크고 최첨단 Transformer Model을 사용할 수 있다. ex) BERT, RoBERTa, GPT, GPT-2, XLNet 등
tokenizer를 통해 쉽게 text를 Token으로 자를 수 있다.
retun_tensor="pt"는 파이토치 기반의 Vector를 말한다.
첫번째 결과는 '이순신은 조선 중기의 무신이다'라는 문장을 Token으로 자른 결과이다.
두번째 결과는 Token으로 잘랐을 때, Token들의 id 이다.
101,102 Token id는 각각 [CLS],[SEP] 토큰을 의미한다.
이처럼 자동적으로 시작과 끝에 Bert Model에 맞는 Token을 붙혀준다.
Huggingface에 저장된 한국어 단어는 약 12만개로 저장되어있지 않은 단어의 경우 [UNK]로 Token이 생성된다.
[UNK] token이 많아지면 Model 성능에 악영향을 미칠 수 있다.
예시로 제시된 4개의 문장의 유사도를 구한것이다.
눈 여겨 볼것은 첫번째 문장과, 네번째 문장의 유사도이다.
두 문장은 전혀 유사하지 않지만 꽤 높은 유사도를 보이고 있다.
이를 통해 알 수 있는것은 유사도로 구한 값의 쓰레쉬 홀드를 맹신 할 수 없다는 것이다.