음성, 이미지, 텍스트를 한데 묶은
멀티모달 AI 튜터 시스템을 만들때 필요한 기술들에 대해 알아본다.
“이게 뭐야?” → "이게 뭐야?"
입력: "이 그래프 설명해줘" + 슬라이드 이미지
출력: "이건 수익이 점점 증가하는 추세를 보여줍니다."
텍스트 → “이 그래프는 A가 B보다 큰 걸 보여줘요.” 음성 출력
| 기능 | 도구 |
|---|---|
| STT | Whisper, OpenAI Whisper API |
| Vision | GPT-4V, PIL, OpenCV 등 |
| LLM | GPT-4, GPT-3.5, 또는 local LLM |
| TTS | ElevenLabs, Typecast, Google TTS |