작성자 : 성신여자대학교 통계학과 정세영
과거에는 수많은 웹문서 중에 관련 있는 문서 리스트를 반환해주는 정도였음
내 question에 더 구체화된 answer를 반환해줬으면 좋겠다 : Question Answering!
Question Answering의 기본적인 두 단계
Finding documents that contain an answer
: 기존의 검색 기반 시스템으로 굉장히 큰 데이터에 확장 가능
Finding an answer in the documents (Reading Comprehension)
: 위 검색 기반으로 좁혀진 document candidates에서 정답 search
Machine Comprehension (Burge 2013) : MCTest corpus를 가지고 "답은 지문에 있어. 찾아봐" 하는 task (진전은 없었음)
이후 매우 크게 구축한 train corpus와 신경망 구조를 통해 성능이 향상됨. 특히 SQuAD dataset이 굉장히 정교하게 구축되어 크게 기여하였고 지금까지 널리 사용되고 있음.
※ 과거 QA 모델은 주로 NER 기반으로 접근, 수작업이 굉장히 많이 들어가고 복잡함
"답은 지문에 있어. 찾아봐"
https://arxiv.org/pdf/1806.03822.pdf
https://dos-tacos.github.io/paper%20review/SQUAD-2.0/
온라인의 crowd worker들이 unanswerable question 직접 생성(즉, 기계적으로 생성된 것이 아니라 진짜 인간이 생성했으므로 질이 더 높음)
SQuAD 1.1에 자동 생성된 응답 불가능 질문들을 병합해 테스트한 결과 SQuAD 2.0의 dev셋보다 약 20% 가량 성능이 높아져, 상대적으로 SQuAD 2.0의 task가 더 어려운 것임을 확인
한국어 위키백과로 데이터 구축
https://www.slideshare.net/LGCNSairesearch/korquad-v20?ref=https://www.slideshare.net/LGCNSairesearch/slideshelf
simplest neural question answering system
Bi-LSTM 구조를 사용하여 각 방향의 최종 hidden state 둘을 concat하여 question vector로 사용
passage의 각 단어 vector들도 똑같이 Bi-LSTM을 사용하여 각 단어 시점의 두 방향 hidden state를 concat하여 passage word vector로 사용
question vector를 모든 시점의 passage word vector와 attention을 구해서 passage에서 어디가 answer의 시작이고 끝인지를 학습하는 방식 (start token attention과 end token attention의 식이 학습시키는 가중치행렬만 다르고 구조가 똑같은 걸 볼 수 있는데, 이는 일반적으로 RNN에서 식의 구조는 똑같지만 forget gate나 input gate가 서로 다른 역할을 하는 것과 같은 이치라고 이해하면 된다.)
Context-to-Question attention : context word에 가장 관련있는 question word는?
Question-to-Context attention : question word에 가장 관련 있는 context word는?
유사도가 큰 context word만 살아남게 되므로 question 입장에서 관련있는 context word 정보만 모은 것
투빅스 15기 조준혁
평소에 자연스럽게 사용하는 QA모델에 대한 구조와 동작과정에 대해서 잘 알 수 있었던 강의였습니다.
투빅스 15기 김동현
투빅스 14기 정재윤
QA란 Question Answering에 대한 개념으로 우리가 일반 포털 사이트에서 검색을 하는 것이 대표적인 예시이다. 이러한 연구를 위해 MCTest corpus를 만들었으나 이를 사용한 연구에서는 큰 진전이 보이지 않았다. 이 후, Stanford에서는 SQuAD를 만들었다. 이 데이터셋은 잘 정제되고 깨끗한 데이터여서 지금까지도 사용되는 데이터이나 현실과의 괴리감 ( 현실에 적용하는 다른 최적의 방법이 있을 것이다.)라는 단점이 있다.
Stanford Attention Reader는 뉴럴넷을 사용한 QA시스템 중 하나로 Bi-LSTM을 사용한 구조이다. Bi-LSTM을 통해 각 방향의 최종 hidden state 둘을 concat하여 question vector로 사용하고, passage의 각 단어 vector들도 똑같이 Bi-LSTM을 사용하여 각 단어 시점의 두 방향 hidden state를 concat하여 passage word vector로 사용한다. question vector를 모든 시점의 passage word vector와 attention을 구해서 passage에서 어디가 answer의 시작이고 끝인지를 학습하는 방식을 통해 모델을 구하는 것이다.
투빅스 15기 조효원
투빅스 15기 이윤정
투빅스 15기 이수민
투빅스 15기 김재희
QA에 대해 처음 접하였는데, 설명을 쉽게 해주셔서 이해가 잘 되었던 것 같습니다. 감사합니다.
투빅스 14기 박준영
덕분에 QA의 모델의 구조들과 QA의 연구과정에 대해 배울수 있었습니다. 좋은 강의 감사합니다!!
투빅스 14기 한유진
QA모델 구조 사진들을 통해 동작과정을 잘 설명해주셔서 이해하기 수월했습니다. 좋은 강의 감사합니다!