피어 스터디

13. 서브워드 토크나이저(Subword Tokenizer)

  • 현재 통상적으로 많이 사용하고 있는 Hugging FaceWordPiece Tokenizer(구글의 BERT모델)나 센텐스피스(Sentencepiece)(구글) 이전에 등장했던 전통적 기법부터 순차적으로 살펴볼 수 있었다.

    • 바이트 페어 인코딩(Byte Pair Encoding, BPE)

    • Unigram Language Model Tokenizer

    • 센텐스피스(SentencePiece)

    • 서브워드텍스트인코더(SubwordTextEncoder)

    • BERT의 워드피스 토크나이저(BertWordPieceTokenizer)

    • 기타 토크나이저

      • BertWordPieceTokenizer : BERT에서 사용된 워드피스 토크나이저(WordPiece Tokenizer)
      • CharBPETokenizer : 오리지널 BPE
      • ByteLevelBPETokenizer : BPE의 바이트 레벨 버전
      • SentencePieceBPETokenizer : 앞서 본 패키지 센텐스피스(SentencePiece)와 호환되는 BPE 구현체


14. RNN을 이용한 인코더-디코더

  • 기계번역 과제에서 모델의 성능을 평가하기 위한 지표인 BELU 또한, 이전에 카운터 기반/n-gram 등과 같은 수학/통계 기반의 지표들이 존재했다. 그리고 점차 정규화/패널티 등을 수학적으로 반영할 수 있는 평가지표로 발전해왔음을 느낄 수 있었다.

    • 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)

    • 평가지표 BLEU Score(Bilingual Evaluation Understudy Score)


    • 💡

      • 인코더 모델/디코더 모델(LSTM)에서의 output, hidden_state, cell_state (3가지 세트)
      • <SOS> 토큰('\t', 인코더)과 <BOS> 토큰('\n, 디코더)


Seq2seq 코드를 PyTorch로 구현한 링크




📝3주차 회고

profile
AI, Big Data, Industrial Engineering

0개의 댓글