박서연 교수님의 자연어처리 수업을 듣고 자료를 참고하여 정리한 내용입니다. Dailogue Systems Dialogue 다이얼로그 시스템의 기본 개념과 구조 이해 간단한 챗봇을 테스트해볼 수 있는 방법론 학습 >궁극적으로는 사람과 자연스럽게 대화하는 챗봇을 만
ch02 Dialogue Systems (2) Rule based chatbot > 초창기 챗봇 구현 방식 중 하나로, 미리 정의된 규칙(Rule) 사람이 set up 해놓음 사용자의 입력에 따라 미리 정해둔 규칙과 일치하면 해당 규칙에 연결된 응답을 respon
Corpus-based Chatbot Corpus and corpora corpus(코퍼스): NLP 분석용 특수 목적 텍스트 데이터 뭉치임 말뭉치 corpora: corpus 여러 개 일반, 특정 분야(금융/의료 등), 번역된 거(병렬 코퍼스), 실
Corpus-based Chatbot (IR based, seq2seq2 based) > 여기서는 정보 검색(IR)과 시퀀스 변환(Seq2Seq) 방식 챗봇에 대해서 다룰 예정입니다. 두 방식 모두 기본적인 형태에서는 대화의 맥락(Context)을 깊게 파악하는 데
Frame-based Dialogue System > 사용자의 요청을 이해하기 위해 slot에 필요한 정보를 채워 넣는 구조화된 대화 시스템 Frame-based Dialogue란? > Slot: 시스템이 알아야 할 정보 항목 (ex. 출발 도시, 도착 날짜) Va
Dialogue acts > Dialogue Act는 대화에서 한 발화(turn)가 수행하는 기능을 의미합니다. 발화의 목적(요청, 확인, 정보 전달 등)을 태깅 대화 시스템은 이를 통해 대화의 흐름을 이해하고 제어 태그셋(tagset)은 작업(task)에 따라 달
NLP Ch03 Text Preprocessing, Regular Expression text 전처리는 NLP 작업에서 가장 먼저 수행되는 중요한 단계. text 전처리를 통해 데이터를 분석 및 처리하기 쉬운 형태로 바꿀 수 있음 이때 핵심적으로 사용되는 도구가 R
Text Tokenization > 본격적으로 workflow 구현을 들어가기 전에 token 단위를 어떻게 설정할 건지가 제일 중요 document를 작은 unit 들로 쪼개기 쪼갠 단위가 정보 처리 단위가 되도록 -> tokenization > 단위 별로 의미
ch04 Edit distance Edit Distance? > Edit Distance는 두 문자열 사이의 유사성을 측정하는 방법으로, 한 문자열을 다른 문자열로 바꾸는 데 필요한 최소한의 편집 연산(editing operations)의 수를 의미함. 편집 연산
ch05 Hidden Markov Models (ForwardProbabilities, Viterbi Algorithm) Sequence Labeling > 많은 NLP 문제는 시퀀스 레이블링 작업으로 볼 수 있음. 시퀀스 내 다른 아이템들의 레이블을 기반으
ch06. N-Gram Language Models language model → P(word|history) → 자주 쓰는 워드에 대해서 높은 확률을 도출해내는 모델 → 좋은 모델 > If we apply a proper modeling technique, t
ch06-1. N-Gram Smoothing > test할때 training 에 frequency 가 0 이어서 (나오지 않았던 단어) > test할 때, training 에 존재하지 않는 단어 (frequency 가 0) 이 probability 를 곱하면 확률이
Naive Bayes 여태까지 hmm lm 을 중점적으로 봤음 어떤 prediction -> 이전까지의 prediction 을 고려해서 계산 naive bayes는 이전 prediction 고려하지 않고 독립적으로 계산 document 가 주어졌을 때 sentime
Naive Bayes, Evaluating Naive Bayes는 Language Model? 핵심 아이디어 Naive Bayes는 단어들의 등장 확률을 기반으로 문장의 클래스를 분류하는데, 이 과정이 마치 언어 모델처럼 작동한다는 점에서 클래스별 unigram l
ch08 Logistic Regression and Conditional Random Fields Text classification input 어떻게 표현? vectorization Bag of Words, TF-IDF, Word Embedding 등 c
ch08. Conditional Random Fields(CRF) discriminative model 의 한 종류 Text classifacation model 분류 다양한 text classification 기법이 있다. hmm naive bayes
Vector Semantic 어떤 단어를 vector 로 표현하고 싶음. (숫자의 나열로 표현) 강아지를 숫자로 나열 [0.1 0.2 0.3] -> mapping 과정.. 어떻게 의미를 담을까? 벡터로 표현 가능하면? clustering performing Se
ch10. Neural Network and Neural Language Models Neural Networks input layer, output layer, 두 레이어 간의 weighted sum 이라는 연산 이 존재하면 우리는 NN이라고 함.. 근데 사실
ch11. Transformers (+ Mixture of Expert) background apple 의 word2vec 결과가 문맥상관없이 같았음.. (먹는 사과, 회사 apple) attention 이 등장 transformer 등장 contextual
ch12. Part-of-Speech Tagging 형태에 관련된 태깅 문법적으로 deep한 정보를 얻을 수 있는 건 아니다. word에 대해서 무슨 품사를 갖느냐 마킹을 해주는 것 word 인풋을 주고 sequence pos tagging.. sequence t
ch13. Context Free Grammars (Constituency Parsing) and Dependency Parsing Context-Free Grammars 문장은 단순한 단어의 나열이 아니라, 계층적 구조를 가지고 있다. 이 구조는 구성소(const
ch14. Retrieval Augmented Generation (RAG) LLM의 한계 -> hallucination 할루시네이션 세종대왕 맥북프로 던짐사건.. Retrieval Augmented Generation (RAG) indexing ![](http