[논문 리뷰] An intelligent patent recomender adopting machine learning approach for natual language processing

immanuelk1m·2023년 9월 15일
0

Paper Review

목록 보기
5/9

3. Methodology

doc2vec 알고리즘을 사용하여 도메인 특허의 문맥을 기반으로 문서 벡터화를 위한 NN 모델을 훈련

첫 번째 단계에서는 사용자가 읽은 특허의 핵심 문구를 식별하고, 두 번째 단계에서는 수집한 특허 데이터를 사용하여 doc2vec NN 모델을 훈련합니다.

초기 특허 선택을 위해 사용자의 관심사에 따라 Derwent Innovation, USPTO 및 Google Patents에서 특허를 수집

특허의 titles, abstracts, claim을 사용하여 사례 연구를 위한 하위 도메인의 가장 관련성이 높은 초기 특허를 선택
(특허와 관련된 모든 하위 도메인에서 비슷한 특허를 초기 특허로 채택)

초기 특허는 추가 계산을 위해 추천 시스템에 포함

word2vec을 사용하여 초기 특허의 단어를 벡터화하고, 모든 단어 벡터를 평균하여 주어진 하위 도메인의 초기 특허 중심점을 결정

cosine similarity를 사용하여 중심점에 가장 가까운 핵심 문구를 선택
('key phrases' = 중심점에 가까운 단어??)

추천된 특허의 식별은 이전 단계에서 추출한 key phrases를 import하여 USPTO 데이터베이스에서 더 많은 후보 특허를 선택하는 데 필요
(The identification of the recommended patents requires the import of key phrases extracted in the previous step to select more candidate patents from USPTO database.)

시스템은 USPTO 데이터베이스의 특허 풀에서 후보 특허를 선택하기 위해 웹 크롤러와 USPTO의 PatentsView API를 결합

이러한 후보 특허를 기반으로 초기 특허와 밀접하게 관련된 특허를 추천

Doc2vec은 모든 초기 특허와 후보 특허를 포함한 모든 특허를 벡터화하는 데 사용

word2vec과 doc2vec의 차이점은 doc2vec이 특허 ID에 대한 벡터를 추가

TF-IDF, LDA, Word2vec 및 Doc2vec의 문서 유사성 식별 능력을 비교 결과은 Doc2vec이 문서 유사성 비교에 적합

3.1. Input: one-hot encoding

doc2vec 훈련을 위해 문서의 ID가 추가

세 개의 특허에서 사용되는 중요한 비반복 단어는 14개이고, 따라서 one-hot 벡터 차원은 14

세 개의 특허 ID (P1, P2, P3)가 벡터의 15번째부터 17번째 차원에 추가

  • critical nonrepeating words를 추출하는 방법은?
  • 특허 ID를 추가하는 이유는?

3.2. Choosing the training variable

윈도우 크기는 대상 단어 이전과 이후에 얼마나 많은 단어를 사용해야 하는지를 결정하기 위해 선택

PV-DM 모델을 사용하며 최종 목표 벡터 길이는 5

3.3. Training doc2vec NN model

히든 레이어는 출력 레이어에 연결되어 있으며, 대상 단어의 one-hot 벡터를 사용하여 크로스 엔트로피를 계산

마지막 단계에서 후보 특허와 초기 특허의 평균 벡터 사이의 cosine similarity 측정을 기반으로 후보 특허의 하위 집합 중 가장 높은 similary 점수를 가진 특허를 추천

모든 특허 문서는 사전에 훈련된 doc2vec NN 모델을 사용하여 벡터화

Summary

??

Thought

전체 과정을 이해하지는 못 했지만, 특허 전체를 하나의 백터 좌표에 설정하고, 각 점마다 얼마나 가까운지를 확인하는 작업으로 이해하였다.

결국, 특허 전체 Text를 Encoding 할 지가 제일 중요한 작업이 되고, 그 이후 작업이 Important.?!

21년도 논문인데 doc2vec 모델을 사용한 것이 약간 의아

profile
개발 새발

0개의 댓글