시리즈

NLP Paper Review

1.[NLP Paper Review] JAPANESE AND KOREAN VOICE SEARCH

✔ Introduction 한국어와 일본어 음성 검색의 한계 많은 알파벳 수 일어의 경우 기본 문자가 50자 정도 됨 여러 문자들의 혼합 일어 -> 히라가나 + 가타카나 + 한자 + ASCII 한국어 -> 한글 + 한자 + ASCII 많은 동음이의어

2024년 11월 16일

2.[NLP Paper Review] Subword Regularization

위 논문은 NMT(neural machine translation)에서 subword segmentation을 통해 의도적으로 노이즈를 주는 방법을 제시합니다. 그 과정에서 Unigram이라 하는 새로운 subword segmentation 알고리즘을 제시합니다. ✔

2024년 11월 23일

3.[NLP Paper Review] SentencePiece

SentencePiece는 Subword tokenizer의 일환으로 raw data에서 subword 모델링을 진행할 수 있다는 점에서 장점을 가집니다. 이러한 점은 SentencePiece가 end-to-end 및 언어 독립적인 시스템을 구축할 수 있게 해줍니다.

2025년 1월 20일

4.[NLP Paper Review] ELMo

ELMo는 사전학습된 bidirectional language model을 사용하여 구문, 의미적 단어 사용을 고려한 단어 벡터를 생성하는 모델입니다. 후에 다룰 BERT에 많이 참조됩니다. ✔ Introduction 기존의 사전 학습된 word representat

2025년 5월 27일

5.[NLP Paper Review] Effective Approaches to Attention-based neural Machine Translation

해당 논문은 기존에 NMT(neural machine translation)에 사용되던 attention mechanism을 효율적으로 사용하기 위한 방법을 제시합니다. global approach : 소스 내 모든 단어를 참조한 attention 방식 loca

2025년 5월 30일

6.[NLP Paper Review] Seq2Seq

Seq2Seq는 기존의 DNN 중심의 모델에서 RNN을 활용한 End-to-End 방식을 제시하였습니다. Encoder와 Decoder로 구성된 모델 구조는 이후 등장할 수많은 논문들에 영향을 주었습니다. ✔ Introduction DNN은 음성 인식이나 오브젝트 인

2025년 6월 23일

7.[NLP Paper Review] Transformer -1

✔️ Introduction Seq2Seq는 RNN 계열의 모델을 사용해 sequential하게 데이터를 처리할 수 있어, 기존 DNN 모델보다 기계 번역에 유리하게 작용해왔습니다. 다만 이전 시점에서 정보를 연속적으로 받아 출력을 생성하는 방식은 몇 가지 문제가 존

2026년 2월 3일

8.[NLP Paper Review] Transformer -2

이전 리뷰에서 이어집니다.\[NLP Paper Review] Transformer -1논문에서는 두 가지 기계번역 task를 실험했습니다.영어 - 독일어 번역영어 - 프랑스어 번역사용한 데이터셋과 인코딩 방식은 각각 다음과 같습니다.standard WMT 2014 En

2026년 2월 4일