"서울의 GDP는 세계 몇 위야?", "MRC가 뭐야?"
우리는 궁금한 것들이 생겼을 때, 아주 당연하게 검색엔진을 활용하여 검색을 합니다. 이런 검색엔진은 최근 기계독해(MRC, Machine Reading Comprehension) 기술을 활용하며 매일 발전하고 있습니다. 본 대회는 우리가 당연하게 활용하던 검색엔진, 그것과 유사한 형태의 시스템을 만들어 보는 것을 목표로 합니다.
Question Answering(QA)은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야입니다.
다양한 QA 시스템 중, Open-Domain Question Answering(ODQA)은 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제입니다.
ODQA 모델은 two-stage로 구성되어 있습니다. 첫 단계는 질문에 관련된 문서를 찾아주는 "retriever" 단계이고, 다음으로는 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader" 단계입니다. 두 가지 단계를 각각 구성하고 그것들을 적절히 통합하게 되면, 어려운 질문을 던져도 답변을 해주는 ODQA 시스템을 만들 수 있습니다.
최종적으로 테스트해야하는 결과물은 아래와 같습니다.
Extraction-based MRC와 Generation-based MRC 중 어떤 것이 현대에 더욱 선호 되고 있을까요?
- 특정 도메인에서는 텍스트에서 정확하게 답을 추출하는 것이 중요하여, 실제 필드에서 Extraction-based MRC가 많이 사용되고 있습니다.
- 하지만, 현대의 연구 흐름을 보면 Generation-based MRC가 주목 받고 있는데, 그 이유는 아래와 같습니다.
- 유연한 답변 생성: Extraction-based MRC는 주어진 텍스트에서 정해진 부분을 추출하는 방식이기에 답변이 텍스트에 명확하게 포함되어야 합니다. 반면, Generation-based MRC는 모델이 문맥을 이해하고 주어진 질문에 대해 자연어로 답변을 직접 생성할 수 있어 유연한 대응이 가능합니다.
- Open-domain QA의 발전: Open-domain QA에서는 주어진 문서에서 명확한 정답을 찾는 것이 어려운 경우가 많은데, Generation-based MRC 모델은 다양한 정보를 종합하여 새로운 문장을 만들어 답을 줄 수 있습니다.
- 대규모 언어 모델의 등장: GPT, Claude와 같은 대규모 언어 모델의 등장으로 자연어 생성 능력이 크게 향상되었습니다.
단어들의 구성이 유사하지는 않지만, 동일한 의미의 문장을 이해하려 할 때
주어진 지문에서는 질문에 대한 답을 찾을 수 없음에도 답을 주려 할 때 (Unanswerable questions)
Article: Endangered Species Act
Paragraph: ... Other legislation followed, including the Migratory Bird Conservation Act of 1929,
a 1937 treaty prohibiting the hunting of right and gray whales, and the Bald Eagle Protection Act of 1940.
These later laws had a low cost to society—the species were relatively rare—and little opposition was raised.
Question 1: Which laws faced significant opposition?
Plausible Answer: later laws
Question 2: What was the name of the 1937 treaty?
Plausible Answer: Bald Eagle Protection Act
질의에 답변하기 위해 필요한 정보가 주어진 문서 내에 제공되지 않음에도 불구하고 모델은 문서내에서 답을 추출하려는 경향이 있음
Doc1: Big Oak Tree State Park is a stat-owned nature preserve ... in the Mississippi Alluvial Plain portion of the Gulf Coastal Plain.
Doc2: The Gulf Coastal Plain extends around the Gulf of Mexico in the Southern United States...
Doc3: The Southern United States, commonly referred to as the American South, Dixie, or simply the South, is a region of the United States of America.
Q: Where Big Oak Tree State Park is located in?
A: United States of America
Reasoning Hop:
(Doc1) Big Oak Tree State Park is in Gulf Coastal Plain. ->
(Doc2) Gulf Coastal Plain is in Southern United States. ->
(Doc3) Southern United States is in United States of America.
질의에 등장하는 개념, 대상 등의 속성이 여러 문서에 걸쳐서 분포하는 경우 모델은 여러 문서를 보고 어떤 문서에서 근거를 찾을지 판단하는 능력이 있어야 함from datasets import load_dataset
dataset = load_dataset('squad _kor_v1', split='train')
https://www.lgdlab.or.kr/contents/5
https://www.slideshare.net/slideshow/mrc-korquad-b2b-mrc/134331610#9