Retriever
: 검색 기반 시스템, question의 답변에 해당하는 passages subset을 선택 Reader
(Reading Comprehension): 검색 기반으로 좁혀진 document candidates에서 machine이 context를 파악하고, 정확한 답변을 identify
Chen, D., Fisch, A., Weston, J., & Bordes, A. (2017, July). Reading Wikipedia to Answer Open-Domain Questions. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1870-1879).
Q : "Who is the bad guy in lord of the rings?"
A : "Sala Baker is best known for portraying the villain Sauron in the Lord of the Rings trilogy."
Inverse cloze task (ICT) : 다른 랜덤 옵션들 사이에서 올바른 context를 예측
https://velog.io/@sangmandu/Latent-Retrieval-for-Weakly-SupervisedOpen-Domain-Question-Answering
Lee, K., Chang, M. W., & Toutanova, K. (2019, July). Latent Retrieval for Weakly Supervised Open Domain Question Answering. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 6086-6096).
- 이 연구에서 reader 부분은 논외임! 참고용으로 사진만 첨부 https://github.com/danqi/acl2020-openqa-tutorial/blob/master/slides/part5-dense-retriever-e2e-training.pdf
[cls]
token 사용 (d=768)FAISS : open-source library for similarity search and clustering of dense vectors https://github.com/facebookresearch/faiss
Facebook에서 만든 vector 유사도 구하는 library. L2 거리 (가장 작은값) 또는 내적 연산 (가장 큰값) 을 기반으로 유사한 벡터를 계산 https://beausty23.tistory.com/203?category=536818
Training the encoders' Goal : 관련된 question과 passage embedding의 거리가 관련없는 pair의 거리에 비해 최소화될 수 있는 vector space를 creat하는 것! 그럼 the dot-product similarity (eq 1)가 good ranking function이 될 수 있다.
Training data: m개의 instances들로 이루어진 training 데이터 D. 여기서 한개의 instance는 한개의 question q_i와 한개의 relevant paggage p_i(+), n개의 irrelevant passages p_i(-)들로 이루어져있다.
Objective Function
Positive and negative passages (어떻게 negative sample을 고를 것인가?)
In-batch negatives
Sample efficinecy
In-batch negative training
Impact of gold passages
Similarity and Loss
Cross-dataset generalization
Nick이 잘 설명해 주시지 않을까? 오이오이! Nick 난 믿고 있었다구!