"[검은 고양이] 책의 저자는 누구야?"
"[검은 고양이] 책을 쓴 사람은 누구야?"
두 문장은 완전히 똑같은 말을 하고 있다는 것을 일반적인 인간이라면 쉽게 확인할 수 있을 것이다. 그러나 기계도 과연 이 두 문장이 같다고 생각할까?
이렇게 겉보기에는 달라보이는 두 문장이 사실 같은 의미를 지니고 있다는 사실을 기계가 이해할 수 있도록 하는 것이 텍스트 유사도(Text Similarity)이다.
물론 의미라는 것이 주관적일 수 있어서 읽는 사람에 따라 달라질 수 있다. 이러한 점을 감안하고서, 최대한 정량적인 방법으로 모델을 만드는 것이 핵심이다.
여러 방법의 텍스트 마이닝이 있지만, 딥러닝 기반으로 벡터화된 문장들의 벡터 유사도를 계산하는 방식을 이야기해보려한다.
이번에 활용할 문제는 캐글 Quora Questions Pairs 이다. 질문/답변 데이터를 가지고 있고 이에 대해서 어떤 질문이 서로 유사한지를 판단하는 모델을 만드는 것이 목적이다.