이 포스팅은 ACL 2020에서 발표한 Open-Domain Question Answering 를 참고하여 작성하였습니다. 실제 Tutorial 발표 영상을 보고 싶다면, T8: Open-Domain Question Answering로 이동하세요.
Open-domain Question Answering은 다양한 주제의 대량의 문서 집합을 사용한 질의응답에 관한 task이다. Open-domain QA는 NLP, information retrieval(IR)에서 오래된 문제이다 [1].
전통적인 QA 시스템은 일반적으로 question processing, document/passage retrieval, answering processing으로 이루어진 pipeline으로 구성되었다.
급격한 인공신경망의 발전으로 [2], 현대의 open-domain QA 시스템은 기존의 IR 기술과 AI 모델[3]과의 결합으로 재구성되거나 또는 end-to-end fahsion[4]으로 구현되었다. Open-domain QA에 대한 간략한 배경지식을 설명하고 연구 문제에 대한 기본 구성과 핵심 기술 변화에 대해 논의한다. highly-modulated pipeline systems부터 현대의 깊은 인공신경망 end-to-end 학습까지 지난 수십 년간 그 분야가 어떻게 발전해 왔는지에 대한 관점을 제공한다.
open-domain QA를 위해 제안된 최첨단 모델에 초점을 둔다. 3개의 메인 카테고리들로 기존 모델들을 구분한다: Two-stage retriever-reader approaches, Dense retriever and end-to-end training, and Retriever-free approaches.
Retriever : 대량의 문서 집합에서 answer이 포함된 문서를 찾는 것
- TF-IDF이나 BM25 같은 전통적인 sparse vector space methods 사용
Reader : 주어진 문단이나 문서에서 answer를 찾는 것
- 인공신경망 모델을 사용
multi-passage training [5], passage reranking [6], denoising distantly-supervised data [7]
문제 정의, 동기 부여, 응용
간략한 히스토리
2-1. 초기 AI 도전 중 하나
2-2. TREC QA tracks
2-3. IBM Watson Deep QA
2-4. MRC
QA의 최신 개발론
KBs과 텍스트를 사용한 Open-domain QA
4-1. KBs를 사용한 open-domain QA 소개
entity 중심 지식 베이스의 속성, open-domain QA에서 KB의 장단점
4-2. text와 KBs 둘 다 사용에 대한 최근 연구
Open problems and future directions
🔥 Hot topic : the two open-domain QA 대표적인 예시
암시적 context 검색 vs. 모델에 인코딩된 지식
완전한 사용자 경험
답변을 뒷받침한 근거와 증거, answer triggering, 서술형 질문과 긴 형식의 답변
user interaction과 grounding
대화형 QA, 다중 모드 상호작용
구체적인 튜토리얼 리뷰는 ACL2020 Tutorial: Open-Domain Question Answering ver2에서 이어집니다.
