“가오 박사는 2005년경 중국 이주 노동자 시장에서 장기적인 체계적 이주 노동자 부족이 발생하기 시작했으며, 이는 이주 노동자의 임금 상승률을 크게 높였고, 그 결과 식품 물가가 상승하였으며, 소비자물가지수의 상승을 촉발하여 평균 인플레이션을 약 100~200bp 상향시켰다.”
추출한 RDF 트리플
{이주 노동자 부족, increase, 이주 노동자의 임금 상승률}
{이주 노동자의 임금 상승률, resulted in, 식품 물가}
{식품 물가, push up, 소비자물가지수}
{식품 물가, make higher, 인플레이션}
서브그래프 구축
Application
Reinforcement Learning
거시경제를 하나의 강화학습으로 공식화 (상태공간, 행동, 보상)
지식그래프에서 얻은 변수간 인과관계 -> 어떤 행동이 어떤 상태를 변화시킬지 예측하고 목표 변수를 극대화하는 정책을 학습하는 것이 가능해짐
Economic Forecasting
두가지 경제지표를 예측
china's monthly inflation rate
china's nominal investment(중국 경제 전체 차원의 총투자 지출)
변수선택 방법에 차이를 두고 Lasso 회귀 학습 후 12개월 예측
전통방법: 고정된 12개 변수를 입력으로 사용 (GDP, Nominal Consumption, ...)
KG 기반 방법: 지식그래프에서 예측할 지표와 직접 연결된 24개 또는 19개 변수를 입력으로 사용 (1년 대출금리, 환율, 도시 실업률, ...)
결과
전통모델은 장기예측에서 성능이 떨어지지만 kg기반 모델은 장기 예측에서도 안정적인 성능이 나옴
"단기예측은 데이터 기반, 장기 예측은 문제의 내재적 논리 포작이 중요" -> kg 기반 모델은 진정한 경제 시스템의 논리를 잘 반영함을 시사
Limitation & Impact
Limitation
텍스트에서 엔티티와 관계를 추출하는 과정에서 사람의 검수가 너무 많이 필요함
economic forcating 활용에서 직접 연결된 변수들만 사용
전통방법과 kg기반 방법을 비교할때 선택 변수 개수의 차이가 있어서 형평성에 떨어짐
Impact
"이주 노동자 부족" -> ... -> "인플레이션" 상향시킨다는 multi hop 관계를 보여주면서 지식그래프 구축이 갖는 강점을 잘 보여준 것으로 보인다.
엔티티와 관계를 LLM으로 추출한다면 사람의 검수가 덜 필요해지고 정확도도 더 높아질 것으로 생각된다.
텍스트 데이터를 통해 지식그래프를 구축한다면 시간에 따라 변화하는 macro 지표들 간에 관계를 잘 포착할 수 있을 것으로 예상된다.