1) Chatbot \- Sentiment Analysis : 감정분석 \- Tokenization : 토큰화 \- Named Entity Recognition : 주제파악하기 \- Normalization : 의도된 오타 파악하기 \- Dependency Parsin
Contents Word2Vec Glove 기존 모델 단점 Word Embedding 기존 정수 인코딩의 한계? 단어 사이의 연관성을 파악하기 어려움 원-핫 인코딩의 한계? 메모리 문제 희소 표현 (Sparse Representation)
Fest Text (패스트 텍스트)
자연어 처리에 사용되는 대표적인 파이썬 패키지에는 NLTK가 있습니다. 해당 패키지에서는 말뭉치, 토큰 생성, 형태소 분석, 품사 태깅 등을 제공합니다.표준 토큰화 중 하나인 Treebank 표준 토큰화를 사용하는 방법은 아래와 같습니다.Treebank 토큰화 이외에도
순환 신경만 (RNN)
RNN이 갖고 있는 한계점: \- exploding gradient \- vanishing gradient RNN 구조에서 state $$xt$$에는 $$W{xx}$$가 계속 곱해지게 된다. \- 곱해지는 값이 1보다 크다면? 발산 \- 곱해지는 값이 1보다
이미지 삽입 해야함이미지 삽입 해야함(1) Word Tokenization & Encoding(2) Training(3) Validation & Testing1D - CNN Model