
✔ Introduction 한국어와 일본어 음성 검색의 한계 많은 알파벳 수 일어의 경우 기본 문자가 50자 정도 됨 여러 문자들의 혼합 일어 -> 히라가나 + 가타카나 + 한자 + ASCII 한국어 -> 한글 + 한자 + ASCII 많은 동음이의어

위 논문은 NMT(neural machine translation)에서 subword segmentation을 통해 의도적으로 노이즈를 주는 방법을 제시합니다. 그 과정에서 Unigram이라 하는 새로운 subword segmentation 알고리즘을 제시합니다. ✔

SentencePiece는 Subword tokenizer의 일환으로 raw data에서 subword 모델링을 진행할 수 있다는 점에서 장점을 가집니다. 이러한 점은 SentencePiece가 end-to-end 및 언어 독립적인 시스템을 구축할 수 있게 해줍니다.

ELMo는 사전학습된 bidirectional language model을 사용하여 구문, 의미적 단어 사용을 고려한 단어 벡터를 생성하는 모델입니다. 후에 다룰 BERT에 많이 참조됩니다. ✔ Introduction 기존의 사전 학습된 word representat

해당 논문은 기존에 NMT(neural machine translation)에 사용되던 attention mechanism을 효율적으로 사용하기 위한 방법을 제시합니다. global approach : 소스 내 모든 단어를 참조한 attention 방식 loca

Seq2Seq는 기존의 DNN 중심의 모델에서 RNN을 활용한 End-to-End 방식을 제시하였습니다. Encoder와 Decoder로 구성된 모델 구조는 이후 등장할 수많은 논문들에 영향을 주었습니다. ✔ Introduction DNN은 음성 인식이나 오브젝트 인

✔️ Introduction Seq2Seq는 RNN 계열의 모델을 사용해 sequential하게 데이터를 처리할 수 있어, 기존 DNN 모델보다 기계 번역에 유리하게 작용해왔습니다. 다만 이전 시점에서 정보를 연속적으로 받아 출력을 생성하는 방식은 몇 가지 문제가 존

이전 리뷰에서 이어집니다.\[NLP Paper Review] Transformer -1논문에서는 두 가지 기계번역 task를 실험했습니다.영어 - 독일어 번역영어 - 프랑스어 번역사용한 데이터셋과 인코딩 방식은 각각 다음과 같습니다.standard WMT 2014 En

해당 논문은 2018년에 나온 것으로 기존 영어 중심의 word representation을 한국어에 특화되도록 자모 기반 subword decomposition 방법론을 제시한 논문입니다. ✔️ Introduction word vector representation

✔️ Introduction 현대 Generative Language Models(GLMs)은 우리 생활에서 여러 task를 수행합니다. 대부분의 경우, 모델 크기를 늘려서 목표를 달성하는데 이 경우 높은 추론 비용이 발생하기 마련입니다. 이러한 추론 시간을 최적화하기

✔️ Introduction 현대의 NLP task들은 PLMS(pre-trained language models)이 대부분입니다. 특히, tokenize 기법으로 사용되는 BPE 알고리즘은 OOV(Out of Vocabulary) 문제를 어느 정도 해결할 수 있다는