Closed-Domain Chatbot에서 키워드는 Named Entity Recognition(NER), 인텐트는 Intent Classification으로 구현
이 중 Named Entity Recognition에 대해 알아보고자 함
참고- Closed-Domain Chatbot vs. Open-Domain Chatbot
- Closed-Domain Chatbot: 키워드와 인텐트를 기반으로 특정 업무를 수행(예: 카카오미니)
- Open-Domain Chatbot: 어떤 토픽이든 상관없이 대화 가능(예: 심심이,이루다)
Named Entity Recognition
- 개체명 인식은 비정형텍스트의 개체명 언급을 인명,단체,장소 등 정의된 분류로 분류하는 작업으로 대표적인 시퀀스 레이블링 태스크에 속함
- 시퀀스 레이블링이란 입력값 x1,x2,...,x_n에 대해서 y1,y2,...,y_n를 각각 부여하는 작업임
- RNN의 Many-to-Many를 사용하여 구현할 수 있음(return_sequences = True)
- BIO Tagging: 개체명 인식 데이터에서 주로 사용하는 태깅 방법
- B: Begin의 약자로 개체명이 시작되는 부분
- I: Inside의 약자로 개체명의 내부 부분
- O: Outside의 약자로 개체명이 아닌 부분
- Bidirectional LSTM-CRF: BiLSTM과 CRF를 사용하여 시퀀스 레이블링을 수행. CRF 층을 사용하여 I가 B보다 먼저 오는 경우, O 뒤에 I가 등장하는 경우 등 BIO 규칙 위반을 방지함
- Bidirectional LSTM-CNN: 입력에 CNN-extracted Char Features를 추가