이 글은 논문 [IM-Chat: A Multi-agent LLM-based Framework for Knowledge Transfer in Injection Molding Industry] 의 내용을 읽고 정리한 리뷰입니다.
1. INTRODUCTION
1.1 Research background
1.1.1 숙련자의 지식, 어떻게 계승할 것인가?
사출 성형은 플라스틱 부품을 대량 생산하는 핵심 제조 공정이다.
이 공정은 설정이 복잡하고, 환경 변화에 민감하게 반응하기 때문에 숙련자의 경험과 직관이 제품 품질에 큰 영향을 미친다.
기존에는 다음과 같은 방식으로 지식이 전달되어 왔다:
- 규칙 기반의 작업 문서
- 고장 사례 매뉴얼
- 도제식 전수 방식 (선임자 → 신입자)
그러나 최근 제조 현장은 다음과 같은 변화에 직면하고 있다:
- 숙련 인력의 고령화 및 퇴직
- 비숙련 인력의 증가와 고용 유연화
- 다국적 인력 확대로 인한 언어 장벽
이러한 변화는 제조 노하우의 단절과 현장 대응력 약화로 이어지고 있다.
1.1.2 LLM과 에이전트 시스템, 지식 전수의 새로운 방식
최근 대규모 언어 모델(LLM)의 발전으로, 지식 전수 방식에도 변화가 일어나고 있다.
LLM은 복잡한 문제를 단계적으로 추론할 수 있고, 자연어를 통한 대화형 인터페이스를 제공하므로 작업자에게 실시간으로 상황에 맞는 지식을 제공할 수 있는 기반이 마련되었다.
하지만 산업 현장에 적용하기 위해서는 다음과 같은 한계가 존재한다:
- 그럴듯하지만 잘못된 정보를 생성하는 환각(hallucination) 문제
- 작업 환경이나 설비 조건에 따라 달라지는 상황에 대한 정량적 판단의 부족
이러한 한계를 극복하기 위해 최근에는 다음과 같은 기술이 함께 활용되고 있다:
- RAG (Retrieval-Augmented Generation): 정확한 문서를 실시간으로 검색하여 반영
- 파인튜닝: 특정 도메인 지식에 최적화된 사전학습
- Tool-calling 에이전트: 계산기, 시뮬레이터 등 외부 도구와 연동한 복합 작업 처리
1.1.3 IM-Chat: 도제 지식을 AI로 전환하다
이 논문에서는 위와 같은 기술 기반을 바탕으로,
사출 성형 산업에 특화된 멀티 에이전트 LLM 시스템인 IM-Chat을 제안한다.
IM-Chat은 단순한 질의응답을 넘어, 문서 검색, 수치 계산, 외부 모델 호출, 인터넷 검색 등 다양한 기능을 수행하는 복수의 에이전트가 협업하는 구조로 설계되어 있다.
주요 기여점은 다음과 같다:
1. 지식 자산화
도제식 전수의 한계를 극복하고, 작업자의 노하우를 구조화된 형태로 저장할 수 있다.
2. 문맥 인식 기반 응답 생성
다양한 매뉴얼, 고장 사례, 온라인 문서 등을 검색하여, 문맥에 맞는 정보를 정확하게 제공한다.
3. 정량적 판단 지원
Surrogate 모델, 생성형 모델(예: diffusion model) 등과 연동하여, 수치 기반의 의사결정을 지원한다.
2. Method
2.1 IM-Chat workflow
1. Task Formatter
- 사용자의 질의와 직전 대화 내용을 기반으로 명확하고 정제된 질문으로 재구성
- 다국어 사용자 대응을 위해 원문과 영어 번역본을 함께 저장
2. Classifier
- 질의가 사출 성형 관련인지 자동 판별
- 일반 질의는 가벼운 경로로 처리해 불필요한 도구 호출과 비용을 절감
- 사출 성형 관련일 경우, 전용 워크플로우로 전환해 정밀한 문제 해결 유도
3. Task Solving
- 일반 질의: ReAct 에이전트가 인터넷 검색만으로 답변
- 사출 성형 질의: 멀티 에이전트 시스템 작동
- Planner: 질의를 여러 하위 작업(subtask)으로 분해
- Executor: 맨 위 하위 작업을 하나씩 순차 실행
- Supervisor: 응답의 완성도와 충분성 판단 → 필요 시 다음 단계 진행
- 이러한 점진적 구조는 정확성과 유연성을 동시에 확보한다
4. Tool Integration
- IM-Chat은 다양한 외부 도구와 연동된다:
- 웹 검색기: 일반 정보 검색
- 트러블슈팅 테이블 검색기: 문제-해결 매핑 기반 정답 추출
- 매뉴얼 검색기: 제조 문서 기반 근거 제공
- 확산 모델 기반 생성기: 실제 생산 데이터를 학습한 모델로 정량적 파라미터 추천 수행
5. Output Formatting
- 최종적으로 Reporter 에이전트가 전체 작업 이력을 요약
- 사용자의 모국어로 자연스러운 응답 생성
- 사출 성형 관련 질의는 도구 호출, 계획, 실행 결과까지 포함한 요약 제공
🛠️ 구현 기술
- LangChain + LangGraph 기반으로 에이전트 워크플로우 설계
- Streamlit 인터페이스를 통해 작업자와의 실시간 상호작용 지원

2.2 LLM-based knowledge transfer system for limited domain knowledge
LLM 기반 지식 전수 시스템을 구축하기 위해, IM-Chat은 사출 성형 도메인에 특화된 다양한 지식 자원을 수집하였다.
주요 출처는 다음과 같다:
- 전문가 인터뷰: 실제 현장에서의 결함 조정 우선순위, 해결 방식 등 실전 중심의 노하우 확보
- 트러블슈팅 차트: 대표 결함 유형(예: 쇼트샷, 용접선, 뒤틀림 등)과 공정 파라미터 간 상관관계가 구조화된 문서
- 기술 문헌 및 매뉴얼: 전문가 의견을 보완하고, 조건별 상세한 공정 정보 확보
이러한 자료는 통합된 형태로 정리되어, “결함 ↔ 조정 파라미터” 매핑 테이블을 구축하였다. 조정 방향은 +/– 기호로 표기되며, 각 파라미터에는 우선순위 값이 부여되어 신속한 검색과 정렬이 가능하다.
2.2.2 Retrieval augmented generation (RAG) for IM-Chat
IM-Chat은 단순히 LLM의 추론에만 의존하지 않고, RAG (Retrieval-Augmented Generation) 방식을 통해 사실 기반 응답을 생성한다. 사용자의 질문이 사출 성형 도메인으로 분류되면, Planner는 해당 질문을 여러 개의 하위 작업(subtask)으로 분해하고, Executor는 각 하위 작업에 대해 필요한 정보를 다음 3가지 경로를 통해 검색한다:
- 트러블슈팅 테이블
- 결함별 대응 파라미터 정보를 CSV 형태로 구성하고, 청크 단위로 분할
- 각 청크를 임베딩하여, 코사인 유사도 기반으로 상위 2개를 선택해 요약 수행
- 제조 매뉴얼(PDF)
- GPT-4o + LlamaParse 조합으로 PDF를 구조화
- 페이지 단위 임베딩 → 20개 후보 생성 → MMR (Maximal Marginal Relevance) 기법으로 유사성과 다양성을 고려해 7개 선택 → 요약
- 인터넷 검색
- 문서 기반으로 해결이 어려운 경우, Tavily API를 활용해 외부 웹 문서를 검색하고 요약
이렇게 수집된 검색 결과는 모두 요약 및 재구성되며, 최종적으로 Supervisor가 응답의 품질과 충실도를 평가한다. 이를 통해 단순 문서 검색이 아닌, 정확하고 문맥에 맞는 응답 생성이 가능해진다.
2.3 LLM-based knowledge transfer system for extensive domain knowledge
2.3.1 Diffusion Model
문서 기반 지식만으로는 실제 생산 현장의 다양한 상황을 완전히 반영하기 어렵다. 이를 보완하기 위해, 실제 생산 품질 데이터와 환경 조건을 학습한 Diffusion 기반 공정 추천 모델을 개발하였다.
- 입력: 제품 품질 (양품/불량), 공장/기계의 온도 및 습도 등 총 4개 변수
- 출력: 주입 속도, 압력, 위치, 보압 시간 등 총 10개의 주요 공정 파라미터
- 모델 구조: Classifier-Free Guidance Diffusion Model (CFGDM) 사용
→ 다양한 조건에서도 양품을 생성하는 능력을 실험적으로 입증함
이를 통해 정량적인 근거를 갖춘 의사결정 도구로서 제조 현장에 직접 활용 가능한 가능성을 제시한다.
M-Chat 시스템 내에서 Diffusion 모델을 효과적으로 사용하기 위해, 입력 구조화 → 후보 생성 → 최종 선택의 파이프라인을 구축하였다.
- 입력 구조화: 사용자의 자연어 질의를 벡터 포맷으로 정리 (Diffusion Input Formatter)
→ 정보가 불충분할 경우, 보완 질문을 통해 추가 입력 유도
- 후보 생성: 구조화된 조건을 바탕으로 Diffusion 모델이 64개의 후보 파라미터 세트 생성
- 후보 평가: CatBoost 기반 Surrogate 모델이 각 후보의 양품 생산 확률을 예측
→ 최고 확률의 세트 1개를 최종 선택
- 결과 통합: 선택된 공정 조건은 텍스트 요약 형태로 변환되어 Supervisor에게 전달됨
이처럼 IM-Chat은 단순한 지식 전달을 넘어, 실제 데이터를 기반으로 한 정량적 판단 및 공정 추천까지 자동화한다.
3. Results
IM-Chat이 실제 산업 현장에서 얼마나 잘 작동하는가? 이를 검증하기 위해, 각기 다른 도구 하나만 사용하는 단일 도구 기반 과제 100개를 선정해 성능을 측정했다.
3.1.1 실험 목적
- 도구 유형별 LLM 성능 비교 및 검증
- 총 100개 과제를 4개 카테고리로 구분:
- 트러블슈팅 테이블 검색
- 제조 매뉴얼 검색
- Diffusion 모델 기반 공정 추천
- 일반 질의 응답 (인터넷 검색 포함)
3.1.2 평가 방법
- 전문가 평가: 실제 제조 전문가가 응답의 정확성과 적합성을 10점 척도로 평가
- LLM 평가: GPT-4o를 판정 모델로 활용하는 LLM-as-a-Judge 방식 병행
3.1.3 주요 결과 요약
- GPT-4o는 모든 유형에서 가장 안정적인 성능을 보였다
→ 특히 트러블슈팅 테이블, Diffusion 모델 기반 과제에서 뛰어난 정확도
- GPT-3.5-turbo는 긴 문서나 구조화된 테이블 해석에서 자주 실패
→ 도구 선택 오류도 빈번하게 발생함

3.1.4 LLM 평가의 한계
- GPT-4o가 생성한 답변조차 다른 GPT-4o에 의해 낮게 평가되는 사례가 확인됨
→ 이유: 정량적 추론 필요 시 평가 실패 / 문장 유창성 위주로 채점되어, 전문가 평가와 불일치 발생
3.1.5 Latency & Cost
| 모델 | 응답 시간 | 비용/질문 | 비고 |
|---|
| GPT-4o | 24.4초 | $0.0190 | 정확하나 비용 높음 |
| GPT-4o-mini | 32.4초 | $0.0017 | 반복 계획으로 응답 지연 |
| GPT-3.5-turbo | 17.2초 | $0.0027 | 빠르지만 부정확 |
3.2.1 실험 목적
- 멀티 에이전트 구조의 실제 효과 확인
- 총 3가지 도구 조합별로 과제 20개씩 구성:
- Diffusion + 트러블슈팅 테이블
- Diffusion + 매뉴얼 검색
- Diffusion + 인터넷 검색
3.2.2 주요 결과 요약
- GPT-4o
- 모든 조합에서 가장 높은 정답률 및 적합성 평가
- 특히 트러블슈팅 테이블 조합에서 전문가 평가 9.2점
- 복잡한 워크플로우 내에서 Planner–Executor–Supervisor 간 모듈 간 협업 성능 우수
- GPT-3.5-turbo
- 일부 과제에서 Diffusion 모델 호출을 누락함
- 응답 속도는 빠르지만, 정확도 및 도구 사용 능력은 현저히 낮음
3.2.3 LLM 평가의 한계
- GPT-3.5-turbo가 생성한 응답에 LLM 평가(GPT-4o)가 더 높은 점수를 주는 경향
→ 하지만 전문가 평가는 GPT-4o 응답이 더 정확하고 유효하다고 판단
- 이유는 다음과 같다:
• LLM은 수치 기반 reasoning, 다중 정보 통합 등 복잡한 추론을 평가하는 데 여전히 한계 존재
• 언어적 유창성만을 기준으로 판단하는 경향
3.2.4 Latency & Cost
| 모델 | 응답 시간 | 비용/질문 | 비고 |
|---|
| GPT-4o | 66.0초 | $0.0427 | 정확하나 비용 및 지연 높음 |
| GPT-4o-mini | 63.2초 | $0.0027 | 계획 루프 비효율 존재 |
| GPT-3.5-turbo | 33.3초 | $0.0028 | 빠르나 도구 미호출 많음 |
GPT-4o-mini는 속도와 비용 면에서 여전히 강점이 있으나, 복합 과제에서는 성능 저하가 명확히 드러남
4. Discussion
4.1 IM-Chat의 핵심 기여
IM-Chat은 단순한 문서 검색이나 챗봇 수준을 넘어서, 정형화된 문서 지식과 실제 생산 데이터를 함께 활용해 정량적이고 현장 중심적인 지식 이전을 가능하게 하는 시스템이다.
- 문서 기반 지식:
Troubleshooting table, 기술 매뉴얼 등을 통해 축적된 전문가 지식을 LLM이 직접 검색하고 요약
- 데이터 기반 지식:
실제 공정 데이터를 활용한 Diffusion 모델을 통해, 수치 기반의 정량적 파라미터 추천 수행
📌 실험을 통해, GPT-4o 기반 IM-Chat은 높은 정확도와 적절한 비용 효율을 동시에 달성하였으며, 복합적인 제조 과제에 대해서도 신뢰도 높은 응답을 생성할 수 있음이 입증되었다.
4.2 아키텍처의 확장성과 유연성
IM-Chat은 RAG 기반 구조를 중심으로 설계되어, 다음과 같은 장점을 가진다:
- 모델 재학습 없이 도구 추가 가능: 새로운 검색 도구, 모델, 시뮬레이터 등 연동이 수월
- 다른 제조 도메인으로의 확장성 확보: injection molding 외에도 프레스, 사출, 용접 등 다양한 산업군에 적용 가능
이러한 구조는 향후 범용 지식 이전 프레임워크로 발전할 수 있는 토대를 제공한다.