해당 논문은 중국 Dailian University of Technology에서 발표하고 IEEE에 게재된 논문이다.

Keyword - Network representation learning, paper recommendation, graph learning, scholarly big data
--> 본연구는 텍스트 정보 + 구조 정보를 모두 고려하여 논문을 인용 네트워크 상에서 표현 학습하는 최초의 연구
이 논문은 특이하게도 Related Work (관련 연구)가 experiment 다음에 나오고 이후에 conclusion으로 끝맺는다.
학술 빅데이터 시대에 방대한 양의 학술정보로 인해 연구자들이 관련 논문을 찾는것이 어려워졌다.
이를해결하기 위해 과거에는 관련 논문을 연구자에게 추천하는 논문 추천시스템이 개발되었지만 기존의 논문 추천 방식은 대부분 사람이 직접 설계한 feature를 기반으로 유사도를 계산하여 유연성이 떨어지는 한계가 있다.
--> 이 문제를 해결하기 위해 VOPRec은 text 및 network representation learning 분야의 최신 연구를 활용해 비지도 학습 기반의 자동 특징 설계를 가능하게 한다.
활용한 데이터셋 : APS(American Physical Society)
Precision(정밀도), Recall(재현율), F1-score, NDCG(Normalized Discounted Cumulativ Gain) 지표에서 기존의 최첨단 논문 추천 모델들을 능가함
최근 수년동안 SCI논문의 생산량이 급증하면서, 학술 데이터의 폭팔적인 성장이 이루어지며 이에 따라 Scholarly Big data(학술 빅데이터)라는 용어가 생겨났다. 여기서 말하는 학술 빅데이터는 수백만명의 저자, 논문, 인용, 표 그리고 방대한 규모의 관련 데이터 (인용 네트워크)를 포함한다. 연구자들의 경우 특정 연구를 시작하려면 기존의 관련 논문들을 읽고 분석해야 하지만, publications들이 급격하게 증가하게 되면서 서지 검색만으로 관련 논문들을 찾는 일은 매우 어려고 복잡한 문제가 되었다.
문제를 해결하기 위해 학술 검색 엔진(springer Nature, Elsevier)등에서는 논문 추천 시스템을 활발히 개발하고 있다. ex) springer nature의 digital research assistant는 사용자가 nature.com 및 springerlink에서 최근에 나온 100개의 논문을 분석하여 개인 맞춤형 논문 추천을 제공한다.
지난 16년간 200편이상의 논문 추천 시스템 관련 연구 논문이 발표되었다.
논문 추천 시스템은 주로 사용된 기법에 따라 세가지 범주로 나눌 수 있다.
- 콘텐츠 기반 필터링(Content-Based Filtering)
- 협업 필터링(Collaborative Filtering)
- 그래프 기반 추천(Graph-Based Recommendation)
논문 추천의 핵심은 논문간의 유사도 계산에 있다.
Big data era에 접어들면서 학술 데이터셋은 점점 더 방대해지고 있고, 이로인해 information overload 현상이 발생하고 있다. 이를 해결하기위해서 학술 추천시스템이 개발되었으며, 이들은 연구자들에게 관련있고 적합한 item (협업자, 학회/저널, 논문)을 추천해준다.
기존방식은 크게 3가지 범주로 나뉜다.
implicit ratings(암묵적 평가) 활용
--> 일부는 heterogeneous academic networks를 구성하여 저자, 학회, 논문 등 다양한 entity를 고려한다.
기존 연구들은 주로 degree(차수), common neighbors(공통 이웃수) 등 수작업 특징(hand-engineered features)을 사용해 논문의 유사도를 계산함
최근에는 network representation learning이 등장하면서 논문 간 구조정보를 embedding으로 학습하여 추천 정확도를 높이고 있다.
대표적인 연구로, strohman은 텍스트 특징 + 인용 그래프 특징을 조합한 추천 시스템을 제안하였는데, 특히 논문 간 참고문헌 유사도와 네트워크 내 거리 (katz distance)가 중요 특징임을 확인하였다.
Sugiyama등은 협업 필터링을 사용해 citation network 내에서 potential citation papers을 식별하였다.
논문의 어느 section이 추천에 유리한지를 분석하여 논문 구조 자체에 대한 분석도 수행하였다.
신경망 기반의 비지도 학습을 통해 저차원의 잠재 vector를 생성하는 접근방식
내용정보 + 구조 정보를 혼합하려는 시도도 있었다. 이러한 흐름에 영향을 받아 인용 네트워크에서 논문의 벡터표현(Vector representation of papers)을 학습하여 텍스트 정보와 네트워크 구조를 모두 반영한 논문 추천 수행
Main Idea: 논문을 인용네트워크에서 vector로 표현함으로써 논문간의 유사도를 vector간 거리 (코사인 유사도)로 계산할 수있도록 하는 것

citation network는 논문 추천에서 매우 중요한 역할을 한다. 인용 네트워크를 G = (V,E)로 정의할 때, 각 엣지 e∈E와 vi와 vj사이의 인용관계를 의미한다. 본 연구에서는 인용방향(들어오는 인용과 나가는 인용)을 구분하지 않으므로, 그래프 G는 무방향 그래프로 간주된다. 추천의 정확도를 높이기 위해 인용한 논문과 인용받은 논문 모두를 포함한다.
그래프 G를 기반으로 논문들을 벡터로 표현한 잠재표현 행렬을 학습하는데, 논문의 문맥 의미(context-semantic)와 network structural의 관계를 포착하기 위해 새로운 그래프를 구성한다. E'은 새로 생성된 edge들의 집합이다.
Yang의 연구에 의하면, network representation learning은 Matrix factorization으로부터 유도된다.
기존 추천 시스템에서는 사용자와 아에템이 각각이 고유의 특징 벡터를 가진다.
행렬분해의 기본 아이디어는 사용자-속성 행렬과 아이템-속성 행렬을 평점 행렬로부터 분해하는 것이다.
이방식은 차원을 축소하고 동시에 사용자의 선호도와 아이템의 특성을 파악할 수 있는 장점이 있다.

기본적인 행렬분해 공식은 아래의 수식으로 표현된다.


여기서 L(U,V)는 편향-분산 균형을 위한 정규화 항이다. 논문 네트워크 표현의 경우 각 논문은 k-차원의 벡터 r로 임베딩되며, 문맥노드 v는 c로 표현된다.

skip-gram with negative sampling을 기반으로 행렬 M을 정의하였는데, 여기서 N(v,c)는 무작위 보행(random walk)을 통해 두 노드가 동시에 등장한 횟수이며, N(v)는 노드 v가 등장한 총 횟수이다.
확률은 아래와 같이 계산 된다.

여기서 A는 전이행렬(transition matrix) ei는 초기 상태 벡터, t는 보행의 단계 수를 의미한다. 따라서 이식은 노드 i에서 시작해 t단계 내에 노드 j로 이동할 평균 확률을 나타낸다.
논문 텍스트 정보로부터 context representation을, 인용 네트워크로부터 node representation을 학습하여 대상 논문에 대해 관련 논문을 추천하는 framework를 제안한다.


- Doc2vec로부터 각 논문의 text vector WR을 학습
- Struc2vec로부터 각 논문의 structure vector SR을 학습
- 각 논문에 대해 text 유사도가 높은 m개의 논문을 찾는다
- 구조 유사도가 높은 n개의 논문을 찾는다
- text/structure기반 edge를 이용해 가중 인용 그래프 G'을 구성
- 각 edge의 가중치 계산
- G'에서 randomwalk로 논문 경로들 생성
- skip-gram으로 논문 vector 학습
- 각 논문에 대해 유사한 q개의 논문 추천
Doc2vec 기반으로 각 논문의 정보를 하나의 문서로 간주하고 학습한다. 각 논문은 행렬 P의 열로 표현되고 각 단어는 행렬 WD의 열 vector로 매핑된다.
논문 vector는 실제로 하나의 단어 vector처럼 작용하여 문맥 내 빈 공간을 채우는 역할을 한다. 학습 데이터로는 윈도우 win내의 단어 sequence를 사용하여 문맥을 예측한다. 목표는 다음과 같은 평균 로그 확률을 최대화하는 것이다.
예측은 hierarchical softmax 방식으로 수행되며 번번한 단어에 짧은 이진 코드가 할당된다. 여기서 h는 단어 벡터와 문서 벡터의 평균으로 구서오디고 모든 논문은 PV-DM 모델을 통해 훈련되며 최종적으로 벡터 공간 R에 매핑된다. 이 공간에서 유사한 논문들은 가까이 위치한다.

edge 가중치 설정
텍스트 기반 or 구조 기반 이웃: 0.5
두 조건을 모두 만족하면: 0.5 + 0.5 = 1.0
인용 관계: 기본적으로 0.5 + Amsler 유사도 적용
새로 구성된 가중치 네트워크 G''에서 각 논문 vi에 대해 가중치 기반 randomwalk를 수행한다.
DeepWalk 방식과 유사하게 이러한 randomwalk sequence를 생성하고 Skip-Gram model로 학습한다.
목표함수 (hierarchical sofmax 기반)는 확률적 경사 하강법 (SGD)로 최적화되며 최종 논문 vector x를 얻는다.
최종적으로 각 논문 vi에 대해 vector xvi가 얻어졌고, 모든 논문 간 코사인 유사도를 계산하여 가장 유사한 Q개의 논문을 추천한다.
