최근 팀에서 자체 NLU 모델을 개발하며 Multi-model Serving에 대한 수요가 생겨났습니다. 각 고객(에이전트)마다
지난 글에서 RedisAI가 무엇인지 그리고 RedisAI와 FastAPI를 활용한 간단한 추론 서버를 구성해보았습니다. 하지만 운영환경에서 언제 늘어날지 모를(정말 언제 늘어날지 모른다고 한다..🥹) 트래픽을 감당하기 위해서는 확장성을 고려한 스케일 인/아웃이 가능