딥러닝 자연어처리 학습내용 정리 - 5

HONEYCARON·2021년 9월 8일
0
post-thumbnail

Closed-Domain Chatbot에서 키워드는 Named Entity Recognition(NER), 인텐트는 Intent Classification으로 구현

이 중 Named Entity Recognition에 대해 알아보고자 함

참고- Closed-Domain Chatbot vs. Open-Domain Chatbot

  • Closed-Domain Chatbot: 키워드인텐트를 기반으로 특정 업무를 수행(예: 카카오미니)
  • Open-Domain Chatbot: 어떤 토픽이든 상관없이 대화 가능(예: 심심이,이루다)

Named Entity Recognition

  • 개체명 인식은 비정형텍스트의 개체명 언급을 인명,단체,장소 등 정의된 분류로 분류하는 작업으로 대표적인 시퀀스 레이블링 태스크에 속함
  • 시퀀스 레이블링이란 입력값 x1,x2,...,x_n에 대해서 y1,y2,...,y_n를 각각 부여하는 작업임
  • RNN의 Many-to-Many를 사용하여 구현할 수 있음(return_sequences = True)
  • BIO Tagging: 개체명 인식 데이터에서 주로 사용하는 태깅 방법
    - B: Begin의 약자로 개체명이 시작되는 부분
    - I: Inside의 약자로 개체명의 내부 부분
    - O: Outside의 약자로 개체명이 아닌 부분
  • Bidirectional LSTM-CRF: BiLSTM과 CRF를 사용하여 시퀀스 레이블링을 수행. CRF 층을 사용하여 I가 B보다 먼저 오는 경우, O 뒤에 I가 등장하는 경우 등 BIO 규칙 위반을 방지함
  • Bidirectional LSTM-CNN: 입력에 CNN-extracted Char Features를 추가
profile
AI 전문가(진)

0개의 댓글