# BPE

6개의 포스트
post-thumbnail

[NLP] BPE(Byte Pair Encoding)

자연어 처리에서의 BPE는 서브워드 분리(subword segmentation) 알고리즘입니다. 기존에 있던 단어를 분리한다는 의미입니다. BPE을 요약하면, 글자(charcter) 단위에서 점차적으로 단어 집합(vocabulary)을 만들어 내는 Bottom up 방

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

토큰화

토큰화란 문장을 토큰 시퀀스로 나누는 과정이다.

2022년 1월 10일
·
0개의 댓글
·
post-thumbnail

Lecture 12 – Subword Models

작성자: 숭실대학교 산업정보시스템공학과 이수민

2021년 5월 26일
·
11개의 댓글
·

NLP_L1_Handling_Text_Data_KIY

구문 분석(parsing) => 검퓨터 과학에서 parsing은 일련의 문자열을 의미있는 token(어휘 분석의 단위)으로 분해하고 그것들로 이루어진 parse tree를 만드는 과정 Parser=> parsing을 수행하는 프로그램. 즉 parser가 parsing을

2021년 4월 8일
·
0개의 댓글
·

BPE(Byte Pair Encoding)

최근 NLP에서 tokenizer로 많이 사용되고 있는 BPE에 대해서 코드와 함께 간단히 정리해 보았습니다.

2020년 6월 5일
·
0개의 댓글
·

BPE, Byte Pair Encoding

기계 학습 단계에서 학습할 단어를 모아둔것을 단어 집합(vocabulary)이라고 한다. 기계가 학습하지 못한 경우의 단어는 OOV(out of vocabulary)라고 하며, UNK(Unknown Token)이라고 한다. Subword Segmentation은 하나

2020년 3월 24일
·
0개의 댓글
·