STT / TTS / Vision 기반 멀티모달 시스템

Jin·2025년 6월 3일

음성, 이미지, 텍스트를 한데 묶은
멀티모달 AI 튜터 시스템을 만들때 필요한 기술들에 대해 알아본다.


1️⃣ STT (Speech-to-Text)

  • 사용자의 음성 입력을 텍스트로 변환
  • 예시: Whisper, OpenAI Whisper API
“이게 뭐야?” → "이게 뭐야?"

2️⃣ LLM (GPT 처리)

  • 텍스트 질문 + 이미지 정보 → GPT에 전달
  • 텍스트 기반 응답 생성
입력: "이 그래프 설명해줘" + 슬라이드 이미지
출력: "이건 수익이 점점 증가하는 추세를 보여줍니다."

3️⃣ Vision (이미지 인식)

  • 슬라이드, 다이어그램, 차트 등 이미지 정보 분석
  • GPT-4 Vision 등의 모델이 이미지 내용을 이해

4️⃣ TTS (Text-to-Speech)

  • LLM 응답을 자연스러운 음성으로 읽어줌
  • 예시: ElevenLabs, Typecast, Google TTS
텍스트 → “이 그래프는 A가 B보다 큰 걸 보여줘요.” 음성 출력

사용 기술 스택

기능도구
STTWhisper, OpenAI Whisper API
VisionGPT-4V, PIL, OpenCV 등
LLMGPT-4, GPT-3.5, 또는 local LLM
TTSElevenLabs, Typecast, Google TTS

profile
develop을 꿈꾸는

0개의 댓글