
✔ Introduction 한국어와 일본어 음성 검색의 한계 많은 알파벳 수 일어의 경우 기본 문자가 50자 정도 됨 여러 문자들의 혼합 일어 -> 히라가나 + 가타카나 + 한자 + ASCII 한국어 -> 한글 + 한자 + ASCII 많은 동음이의어

위 논문은 NMT(neural machine translation)에서 subword segmentation을 통해 의도적으로 노이즈를 주는 방법을 제시합니다. 그 과정에서 Unigram이라 하는 새로운 subword segmentation 알고리즘을 제시합니다. ✔

SentencePiece는 Subword tokenizer의 일환으로 raw data에서 subword 모델링을 진행할 수 있다는 점에서 장점을 가집니다. 이러한 점은 SentencePiece가 end-to-end 및 언어 독립적인 시스템을 구축할 수 있게 해줍니다.

ELMo는 사전학습된 bidirectional language model을 사용하여 구문, 의미적 단어 사용을 고려한 단어 벡터를 생성하는 모델입니다. 후에 다룰 BERT에 많이 참조됩니다. ✔ Introduction 기존의 사전 학습된 word representat

해당 논문은 기존에 NMT(neural machine translation)에 사용되던 attention mechanism을 효율적으로 사용하기 위한 방법을 제시합니다. global approach : 소스 내 모든 단어를 참조한 attention 방식 loca

Seq2Seq는 기존의 DNN 중심의 모델에서 RNN을 활용한 End-to-End 방식을 제시하였습니다. Encoder와 Decoder로 구성된 모델 구조는 이후 등장할 수많은 논문들에 영향을 주었습니다. ✔ Introduction DNN은 음성 인식이나 오브젝트 인