
자연어 처리의 개요
텍스트 데이터의 구조와 구성 성분
토큰화 과정 (NLTK 사용)
토큰화 과정 (mecab, kiwipiepy 사용)
대한민국헌법 text data를 통한 단어 빈도수 분석 및 시각화 (collections, wordcloud 사용)
BoW(Bag of Words)의 CountVectorizer를 통한 희소표현 설명
코사인 유사도를 통한 텍스트 유사도 측정 (CountVectorizer 사용)
CountVectorizer와 코사인 유사도를 이용한 추천 함수 구현
word2vec의 CBOW를 통한 밀집표현 설명
Code를 통한 CBOW 모델과 skip-gram 모델 비교 (cosine similarity, gensim 사용)
RNN의 기본원리 설명
SimpleRNN을 이용한 IMDB 영화 리뷰 감성 분석 (keras 사용)
RNN 심화 이론 설명
RNN 학습 모델 생성 - IMDB 영화 리뷰 감성 분석 (keras 사용)
RNN, LSTM, seq2seq 등 순환 신경망 설명
Transformer의 self-attention과 Multi-Head Attention 설명 (Tensor 사용)
BERT(Bidirectional Encoder Representations from Transformers) 설명
BPE(Byte Pair Encoding) tokenization을 통해 OOV(Out-Of-Vocabulary)문제의 해결방법인 subword tokenization 설명 (BertWordPiece Tokenizer 사용)
BERT를 활용한 네이버 영화 리뷰 감성분석 - task : Text Classification (transformer, bert, electra, TensorFlow, Pytorch, numpy, keras 사용)
HuggingFace의 pipeline 함수를 활용하여 문서 분류(text-classification), 문서 요약(text summarization), 질문 답변(QuestionAnswering), 문장 생성(text generation) task 진행
SBERT를 활용하여 문장유사도 측정 + 영화 추천 함수 구현 (SentenceTransformer, pandas, sklearn(cosine_similarity) 사용)
문장 유사도를 활용하여 ChatBot 제작 (SentenceTransformer, pandas, numpy 사용)