지난 24일, 구글에서 Data Commons MCP Server를 발표했다. Data Commons는 이전에 이 포스트에서 Data Gemma와 함께 다룬적이 있는데, 쉽게 말해 LLM 답변의 환각을 줄이기 위해 외부 데이터인 지식그래프를 사용한다는 개념이다. 이때 지식그래프는 세계 각국의 공공데이터부터 지방 행정 데이터, 국제기구의 통계 등 일반적인 RAG에서 다루는 비정형 데이터를 넘어 정형 데이터를 활용한다. 이번에 공개된 MCP 서버는 이런 데이터를 자연어 프롬프트로 불러와서 적절하게 활용할 수 있게 한다는 점에서 의미가 있다.
우선, MCP 서버는 Antropic에서 제안한 표준 프로토콜로, AI 모델이 외부 도구, 데이터, 시스템과 표준화된 방식으로 소통할 수 있도록 한다. 구글은 이 프로토콜을 채택해서 사용자가 데이터를 활용하기 위해 사용해야 하는 복잡한 프로세스나 다른 API 없이 바로 Data Commons의 데이터를 활용할 수 있도록 한 것이다. 예를 들어, 'Generate a concise report on income vs diabetes in US counties.'와 같은 요구가 주어졌을 때, 미국의 최신 소득과 비만 데이터를 바로 가져와서 분석하고 이를 기반으로 레포트를 도출함으로써 답변의 품질과 정확도는 매우 향상된다.
공식 문서에서 제시한 실제 use case로는 아프리카 경제, 보건 분야의 개선을 목표로 하는 비영리단체 ONE Campaign과 협력하여 구축한 ONE Data Agent가 있다. 이 서비스는 수천만개의 재무와 보건 데이터를 하나의 검색창에서 자연어로 검색할 수 있도록 하여 탐색 시간을 줄일 수 있고, 나아가 데이터는 정제된 형태라는 점에서 데이터 활용의 효율성을 높인다.
.
.
.
Data Commons MCP Server를 사용하는 방법은 Gemini CLI, 코랩 기반 ADK, 깃헙의 파이썬 코드 등 다양하다. 다음 글에서는 실제 서버의 활용 방법에 대해서 알아보겠다.