해당 글은 <Do it! BERT와 GPT로 배우는 자연어 처리> 책을 읽고 정리한 글입니다.기계가 사람 말을 알아듣는 것처럼 보이게 하려면 어떤 요소들이 필요할까?모델 model : 입력을 받아 어떤 처리를 수행하는 함수 function모델은 어떤 입력을 받아서
해당 글은 <Do it! BERT와 GPT로 배우는 자연어 처리> 책을 읽고 정리한 글입니다.토큰화(tokenization) 란 문장을 토큰 시퀀스로 나누는 과정이다.토큰화를 수행하는 프로그램을 토크나이저 (tokenizer) 라고 한다.대표적인 토크나이저로는 은
해당 글은 책을 읽고 정리한 글입니다. 앞에서 본 이론을 바탕으로 허깅페이스 tokenizers 라이브러리를 활용해 BPE 기반의 토크나이저를 만들어보자. BPE는 자주 등장하는 문자열을 토큰으로 인식해, 이를 기반으로 토큰화를 수행하는 기법이다. 어휘 집합 구축