STT / TTS / Vision 기반 멀티모달 시스템

Jin·2025년 6월 3일

음성, 이미지, 텍스트를 한데 묶은
멀티모달 AI 튜터 시스템을 만들때 필요한 기술들에 대해 알아본다.

“이게 뭐야?” → "이게 뭐야?"

입력: "이 그래프 설명해줘" + 슬라이드 이미지
출력: "이건 수익이 점점 증가하는 추세를 보여줍니다."

텍스트 → “이 그래프는 A가 B보다 큰 걸 보여줘요.” 음성 출력

사용 기술 스택

기능	도구
STT	Whisper, OpenAI Whisper API
Vision	GPT-4V, PIL, OpenCV 등
LLM	GPT-4, GPT-3.5, 또는 local LLM
TTS	ElevenLabs, Typecast, Google TTS

develop을 꿈꾸는