SEOCHO — AI에게 우리 회사 자료를 제대로 가르치는 방법

Tasker_Jang·2026년 4월 30일
post-thumbnail

ChatGPT한테 "우리 회사 작년 계약서 내용 좀 정리해줘"라고 물어봤다가, 알고 보니 절반은 지어낸 내용이었던 적 있으시죠? 또는 분명 회사 위키에 있는 내용인데도 AI가 "그런 정보는 없어요"라고 답해서 답답했던 경험도요.

이 문제, 사실 AI가 멍청해서가 아닙니다. AI가 우리 자료를 어떻게 읽어야 할지 모르기 때문입니다. 오늘은 이 문제를 정공법으로 풀어보려는 오픈소스 프로젝트, SEOCHO(서초)를 함께 살펴보겠습니다.

한 줄 요약: 흩어진 문서를 '연결된 지식'으로 만들고, AI 에이전트가 안전하게 꺼내 쓰게 도와주는 미들웨어.


1. 📚 SEOCHO가 뭐하는 애야?

SEOCHO는 한마디로 "도서관 사서" 같은 존재입니다.

도서관에 책이 수만 권 있어도, 사서가 분류하지 않으면 그냥 종이 더미일 뿐이지요. 사서는 책마다 "이건 소설, 저건 역사책, 이 작가는 저 작가의 제자"라는 식으로 기준에 맞춰 정리해둡니다. 그래야 누군가 와서 "조선시대 여성 작가 책 보여주세요"라고 했을 때 정확히 꺼내올 수 있습니다.

SEOCHO가 하는 일도 똑같습니다. 다만 정리 대상이 책이 아니라 회사 문서·계약서·보고서고, 손님이 사람이 아니라 AI 에이전트(=시키는 일을 알아서 처리해주는 AI 일꾼)라는 점이 다를 뿐입니다.

여기서 핵심 단어 두 개만 짚고 가겠습니다.

  • 온톨로지(Ontology): 우리 분야에서 무엇을 무엇이라고 부를지 미리 정해둔 사전입니다. 예를 들어 "직원은 회사에 소속되고, 회사는 제품을 판매한다" 같은 규칙을 적어둔 약속집이죠.
  • 그래프 데이터베이스: 정보를 점(=대상)과 선(=관계)으로 연결해서 저장하는 창고입니다. 마치 사람 관계도처럼요.

SEOCHO는 이 두 개를 묶어서, "흩어진 문서를 연결된 지식으로 만들고, AI가 안전하게 꺼내 쓰게" 도와주는 도구입니다. 만든 분은 GraphRAG 분야의 멘토 정이태(@tteon) 님이고, MIT 라이선스로 누구나 자유롭게 쓸 수 있습니다.


2. 🎯 어디에 쓰이는데?

말로만 들으면 좀 추상적이죠. 실제 시나리오 3개로 풀어보겠습니다.

(1) 💰 금융 — 계약서·채권 분석

은행에서 일한다고 상상해보겠습니다. 채권 계약서 수백 장에서 "이 채권의 발행자가 누구고, 만기는 언제고, 담보는 뭐고…" 같은 정보를 뽑아야 합니다. 그런데 금융 업계에는 이미 FIBO라는 국제 표준 사전(=Financial Industry Business Ontology)이 있습니다. SEOCHO는 이 FIBO를 그대로 가져다 적용할 수 있습니다. "처음부터 우리 회사 사전을 만드세요"가 아니라, 이미 검증된 업계 표준을 바로 쓸 수 있다는 점이 강점입니다.

(2) 🏢 사내 지식 관리 — 부서 자동 연결

"마케팅팀이 작년에 진행한 캠페인 중에 법무팀 검토를 받은 게 뭐였지?" 이런 질문, 사람이 답하려면 메일 뒤지고 슬랙 검색하고 난리도 아닙니다. SEOCHO는 문서들을 미리 그래프로 엮어두기 때문에 "마케팅팀 → 캠페인 → 법무 검토" 라는 관계를 따라가서 답을 찾아줍니다. 부서 간 협업 흔적이 자동으로 연결되는 셈입니다.

(3) 🔬 연구·컴플라이언스 — 출처 추적

논문이나 규제 문서를 다룰 땐 "그래서 그 주장이 어느 문서 몇 페이지에 나왔어?"가 정말 중요합니다. SEOCHO는 답변마다 출처를 추적할 수 있도록 흔적(trace)을 남깁니다. AI가 그럴듯하게 지어내는 것이 아니라, "이 답은 이 문서에서 나왔습니다"라고 보여줄 수 있는 구조입니다.


3. 🗺️ VectorRAG vs GraphRAG — 왜 그래프인가?

여기서 잠깐, 비슷한 기술인 VectorRAG와 비교해보겠습니다. 둘 다 "AI에게 우리 자료 알려주기" 기술이지만 접근 방식이 다릅니다.

구분VectorRAGGraphRAG (SEOCHO 방식)
한 줄 설명비슷한 글자 찾기관계 따라 추론하기
비유인덱스카드 더미지하철 노선도
잘 하는 일"비슷한 문장 찾아줘""A에서 B 거쳐 C로 가는 길 찾아줘"
약점관계 추론이 어려움사전 설계가 필요함
예시 질문"근로계약 관련 조항 보여줘""ACME가 인수한 회사가 또 인수한 회사는?"

VectorRAG는 카드 더미를 빠르게 뒤지는 방식입니다. "계약"이라는 단어와 비슷한 문장을 휙 찾아주는 데는 강합니다. 하지만 "A 회사가 B를 인수했고, B는 C를 인수했는데 그럼 A가 결국 가진 자회사는?" 같이 관계를 따라가야 답이 나오는 질문에서는 헷갈리기 시작합니다.

GraphRAG는 지하철 노선도처럼 점과 선을 따라갑니다. 강남역에서 시청역 가는 길이 노선도에 그려져 있듯, 회사·인물·계약 사이의 관계를 따라 답을 추론할 수 있습니다. SEOCHO는 이 그래프 방식을 채택해서, 단순 검색을 넘어 "이어진 지식"을 다룰 수 있게 만들어줍니다.


4. ⚙️ SEOCHO의 작동 방식 4단계

저장소에 있는 흐름도를 일상 언어로 풀어보겠습니다. 이번에도 도서관 사서 비유를 그대로 가져갈게요.

📄 (1) 내 문서 입력 → 사서에게 책 한 박스를 통째로 가져다주는 단계입니다. PDF든 마크다운이든 CSV든, "이거 정리해주세요" 하고 던져주면 됩니다.

🔍 (2) 추출 → 사서가 책을 한 권씩 펼쳐서 "저자는 누구, 주제는 뭐, 등장인물은 누구"를 메모하는 단계입니다. SEOCHO에서는 LLM(=대형 언어 모델, 즉 GPT 같은 AI)이 이 일을 합니다. 문서에서 핵심 정보를 자동으로 뽑아내죠.

✅ (3) 검증 → "이 책은 분명 소설이라고 했는데 왜 저자 자리에 출판사 이름이 적혀 있지?" 같은 오류를 잡아내는 단계입니다. 미리 정해둔 온톨로지(=사전)와 어긋나는 정보가 들어오면 걸러줍니다. 잘못된 정보가 그대로 저장되는 사고를 막아주는 안전장치입니다.

🗄️ (4) 그래프 DB에 저장 → 💬 (5) 질문하면 답변 → 검증을 통과한 정보만 그래프 데이터베이스에 차곡차곡 쌓입니다. 그러고 나면 누군가 "올해 우리가 인수한 회사 알려줘"라고 물었을 때, 사서(=SEOCHO)가 정리된 노선도를 따라 정합성이 보장된 답을 가져다줍니다.


5. 💻 실제 코드는 얼마나 간단한가?

여기서 짧게 코드 한 토막만 보고 가겠습니다. 비개발자라면 "아 이 정도면 개발자 한 명한테 부탁해서 며칠 안에 시도해볼 수 있겠구나" 정도로만 느끼시면 됩니다. 저장소 README의 hello world 예제를 그대로 가져왔습니다.

ontology = Ontology(...)              # 1. 우리 도메인의 '단어장'을 만들고
s = Seocho.local(ontology)            # 2. SEOCHO에 넘겨주고
s.add("마리 퀴리는 파리 대학교에서 일했다.")  # 3. 문장 하나 던져주면
print(s.ask("마리 퀴리는 어디서 일했나요?"))   # 4. 자연스럽게 답해줍니다

핵심은 정말 4줄이라는 점입니다. 사전을 정의하고, 도구에 넘기고, 문서를 넣고, 질문하면 끝. 별도의 서버 설치도 필요 없습니다. 내 노트북 안에서 그대로 돌아갑니다.


6. ⭐ 무엇이 차별점인가?

비슷한 도구가 많은데 SEOCHO만의 차별점은 뭘까요? 세 가지로 정리해보겠습니다.

(1) 온톨로지 우선(Ontology-first) — 일반 RAG는 즉흥적입니다. AI가 그때그때 알아서 해석합니다. SEOCHO는 다릅니다. 먼저 약속을 정합니다. "우리 회사에서 '고객'은 이런 뜻이고, '계약'은 이런 속성을 가진다"라고 사전에 합의해두기 때문에, 부서마다 다른 해석으로 헷갈릴 일이 줄어듭니다.

(2) 검증 가능(Verifiable) — 모든 답변에 출처와 흔적이 남습니다. AI가 "이 답은 어디서 나왔어?"라는 질문에 "이 문서 이 위치에서 나왔습니다"라고 답할 수 있다는 뜻입니다. 컴플라이언스가 중요한 회사일수록 이 점이 결정적입니다.

(3) 로컬 우선(Local-first) — 데이터를 외부 클라우드로 보내지 않고 내 컴퓨터 안에서 그대로 돌릴 수 있습니다. 회사 기밀 문서를 외부 서비스에 올리기 부담스러운 환경에서 특히 매력적인 부분입니다.


7. 🌱 마무리 — 누가 써보면 좋을까?

다음과 같은 분이라면 한번 살펴볼 만합니다.

  • 사내에 흩어진 문서를 AI로 연결해보고 싶은 기획자·PM
  • 출처가 명확해야 하는 영역에서 일하는 금융·법무·연구 직군
  • VectorRAG는 써봤는데 "관계 질문"에 약해서 답답했던 개발자

흩어진 문서가 '연결된 지식'으로 변하는 순간, AI는 비로소 우리 회사를 이해하기 시작합니다.

저장소: https://github.com/tteon/seocho

profile
ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨

0개의 댓글