Bert Tokenizer

Sirius·2023년 9월 16일
0

1) 2개의 문장이 쌍으로 들어간다.
2) 3개의 임베딩을 이용한다.

1) 토큰임베딩

문장에서 사용된 단어 외에 두 종류의 특수토큰이 추가된다.
[CLS토큰], [SEP토큰]

1> CLS 토큰

CLS토큰은 분류토큰으로, 한 문서에 대한 문서 분류 혹은 두 문서의 관계에 대한 분류를 하기 위한 정보를 수집해 최종적으로 출력하는 역할을 한다.

2> SEP 토큰

한 문장의 끝을 나타내거나 두 문장을 분리한다.

즉 두 문장이 들어가면 첫 토큰은 CLS이고 각 문장의 끝에 SEP토큰이 붙는다.

2) 구간임베딩

bert는 두 문장을 하나의 시퀸스로 만들어 입력으로 사용한다.
따라서 각 토큰이 어느 문장에 속하는지 또한 별도로 임베딩한다.

  • 보통 CLS와 첫문장의 토큰 ~ SEP까지를 0으로 임베딩하고 나머지를 1로 임베딩한다.

3) 위치임베딩(시퀸스에서의 순서)

BERT는 셀프어텐션을 사용하므로 RNN과 다르게 각 토큰의 위치에 대한 정보가 없다. 따라서 이를 임베딩에 명시적으로 넣어줌(사실상 토큰 순서에 따라 자동으로 생성할 수 있다. 0, 1, 2, 3, 4 ..)

0개의 댓글