[1] 코퍼스 수집 단계 : Selenium과 BeutifulSoup의 차이 ? (https://rubber-tree.tistory.com/88)
[2] 정제(normalization) 단계 : re.sub(pattern, new_text, text)
[3] 문장 단위 분절 단계 : 자연어 처리 툴킷 NLTK(3.2.5 버전) - from nltk.tokenize import sent_tokenize
[4] 분절(Tokenization) 단계 : 한국어 → Mecab, KoNLPy (형태소 분석기)
[5] 병렬 코퍼스 정렬(alignment) : MUSE (페이스북, 단어 간 번역, 비지도 학습) ⇒ CTK (이중 언어 코퍼스의 문장 정렬) (https://kh-kim.gitbook.io/natural-language-processing-with-pytorch/00-cover-3/05-align)
[6] 서브워드 분절(Subword Segmentation) : BPE 알고리즘(Sennrich), SentencePiece (구글)