해당 글은
자연어 처리 바이블(임희석 저) 에서 참고하여 작성되었음을 알려 드립니다.목차
1. 질의응답의 배경과 단계
2. 질문처리단계
3. 문서처리단계
4. 정답처리단계
정의: 사용자가 필요한 정보를 자연어 질문으로 입력하였을 때, 질문에 부합하는 정답을 문서로부터 찾아서 제시하는 기술
구성 기술
분류
정보 검색 기반 질의 응답의 단계
1) 질문처리단계 => 질문융형 분류와 정답 유형분류 진행
2) 문서처리단계(문서 검색) => 정답과 관련성이 높은 문서들을 탐색
3) 정답처리단계 => 정답후보추출, 정답순위화
질문이 무엇인지 이해하는 것이 핵심!
질문유형분류와 정답유형분류는 의문사를 이용한다는 점에서 강한 연관성을 갖는다.
의문사 는 질문의 정확한 정답유형을 결정짓지 못하지만, 중요한 제약정보로서 활용정답유형이란 사용자가 찾고자하는 정보가 무엇인지를 의미 1) 불리언 모델
단점2) 벡터 공간 모델
각 문서에 나타나는 단어들에 대해 가중치를 측정
질의어와 문서의 유사도를 측정
각 문서의 순위를 나타낼 수 있다.
유사도 측정 방법
자카드 유사도
코사인 유사도
TF - IDF
TF : 단어가 문서에 나타난 횟수 => 단어가 문서에서 얼마나 중요한지 확인 가능
DF : 해당 단어가 문서에 나타난 수 => 적게 나타나야 해당 단어는 중요하다.
IDF : DF의 역수 값
TF-IDF : TF와 IDF값을 곱해 중요한 단어를 찾아주는 방법

위 표에 따르면 바나나의 DF는 2, 사과의 DF는 1
1) 질문처리 단계에서 얻은 정답유형정보를 이용
2) 정답유형에 따른 개체명에 따라 얻은 관련문서나 문장을 탐색
3) 정답 유형과 같은 개체를 갖는 정답후보를 추출
4) 정답후보 순위화
나중에 다시 정리하면 좋은 내용들
- TF-IDF
- 코사인 유사도