기술 동향
글로벌 빅테크 기업의 행보
Google
Google I/O 2025
멀티 모달 관련 기술 多
- Gemini 2.5 Pro/Flash
- Gemma 3n
- Signgemma
- Veo 3
- 배경음, 캐릭터 간의 대화를 네이티브로 지원
- 음성이 포함된 영상 생성 가능
- Flow 영화 제작 도구로 전체 워크플로우 관리
AI Studio
AI 개발을 위한 무료 웹 기반 통합 개발 환경
멀티 모달 관련 다양한 AI 기술 테스트 가능
- Chat
- Stream
- Generate Media
- Image/Speech Generation
- Imagen, Veo, Lyria Realtime
- Build
- 프롬프트 -> 자동 웹앱 생성 -> 즉시 배포 (원클릭)
Amazon
Alexa+
- 2025년 새로 발표된 차세대 AI 어시스턴트
- 생성형 AI로 강화된 자연스러운 대화 시스템
Microsoft
Github Copilot with Voice
최근 AI 기업의 부상
OpenAI
ChatGPT
- 가장 자연스러운 대화 가능
- 폭넓은 다양한 분야
- 깊이 있는 연구 및 일상적인 질문에 강함
Perplexity
Perplexity
- 웹 검색 및 실시간 정보 제공 최적
- 보이스 - Push to talk 모드 제공
xAI
Grok 3
- 실시간 X (트위터) 데이터 활용 가능
- 독특한 성격 (창의적인 대화 스타일과 유머)
- 무료 AI 모델 중 가장 강력한 기능 제공
접근성
OTT 플랫폼의 배리어 프리 서비스
Netflix, Watcha, …
- 폐쇄형 자막
- 음성 해설
- TTS 호환 지원

Be My Eyes
시각 장애인을 위한 서비스
- Accessibility with GPT-4o
- 자원봉사자 연결 서비스
- 실시간 비디오 연결 통해 즉석 시각적 도움 제공
- Be My AI
- AI 기반 이미지 설명 서비스
- 36개 언어로 상세한 시각적 설명 제공
종합 핵심 키워드
- AI 어시스턴트, 멀티 모달, 접근성
STT/TTS 개요
STT/TTS 개요 및 기대 효과
STT의 개념
STT (Speech-To-Text)
위키백과에 따르면 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리라고 한다.
간단히 말하면 음성을 텍스트로 변환하는 음성 인식 기술이다.
예시)
- 스마트폰 및 음성 비서: 시리, 구글, 카카오톡 음성 메시지 텍스트 자동 변환
- 업무 환경: Zoom/Teams 등 실시간 자막 및 회의록 자동 작성, 콜센터 상담 내용 자동 기록
- 교육 및 학습: 온라인 강의 자막 생성, 오디오북 텍스트 변환, 학습 노트 음성 입력
- 엔터테인먼트: Youtube 자동 자막 생성, 게임 내 음성 채팅 텍스트 변환
- 접근성 지원: 청각 장애인을 위한 실시간 자막, 거동 불편한 분들의 스마트 홈 제어
- 자동차: 네비게이션, 음성으로 음악 재생 제어

TTS의 개념
TTS (Text-To-Speech)
위키백과에 따르면 말소리의 음파를 기계가 자동으로 만들어내는 기술이라고 한다.
간단히 말하면 텍스트를 음성으로 변환하는 음성 합성 기술이다.
예시)
- 스마트폰 및 음성 비서: 시리, 알렉사
- 업무 환경: 콜센터 자동 응답 시스템, PT 자동 음성 해설
- 교육 및 학습: 어린이 동화책 읽어주기, 외국어 단어나 문장 발음 듣기
- 엔터테인먼트: 게임 캐릭터 대사 음성 생성, 팟캐스트나 오디오 콘텐츠 제작
- 접근성 지원: 시각 장애인을 위한 스크린 리더, 전자책 오디오북 변환
- 자동차: 네비게이션 길 안내, 교통정보 음성 안내
- 공공 서비스: 지하철/버스/공항/기차역 안내 방송

기대 효과
접근성 및 포용성 효과
- 장애인 접근성 향상
- 시각 장애인: TTS로 디지털 콘텐츠 접근성 대폭 향상
- 청각 장애인: STT로 의사소통 장벽 해소
- 언어 장애인: 비표준 발음 인식으로 음성 기술 기회 확대
- 디지털 격차 해소
- 디지털 보조기기 보급 확대로 정보 격차 줄이기
- OTT 플랫폼 배리어 프리 서비스로 문화 콘텐츠 접근성 향상
모빌리티 및 안전 효과
- 교통 안전 향상
- 시각 장애인 보행 보조 앱
- 실시간 음성 길 안내 네비게이션과 장애물 탐지
- 자율 주행 발전
라이프스타일
기본 플로우 및 통신 방식


전망
시장 분석 및 예측
- 빠르게 성장하는 AI 음성 혁명
MarketsandMarkets

2025년 217억 달러 -> 2030년 734.9억 달러

2024년 40억 달러 -> 2029년 76억 달러
홍보
국내 최대 프론트엔드 개발 컨퍼런스
- 일시 : 2025년 8월 23일 토요일
- 장소 : 세종대학교 광개토관
- 규모 : 약 1,200명 예상 (변동 가능)
- 발표 예정 : 음성 인터페이스 개발 여정: 모델 선택부터 사용성을 고려한 엔지니어링 - DevCra 김민수
FE Conf 2024 하이라이트
마무리
정리
핵심 키워드로 본 STT/TTS 기술 동향
- AI 어시스턴트: 글로벌 빅테크의 차세대 음성 AI 경쟁 가속화
- 멀티 모달: 음성 - 텍스트 - 이미지를 넘나드는 통합 AI 경험
- 접근성: 장애인과 소외계층을 위한 포용적 기술 발전
급성장하는 시장 전망
도전 과제
- 정확도 한계: 방언, 사투리, 배경, 소음, 빠른 발화 속도에서 STT 인식률 급격히 저하
- 편향성 문제: 특정 성별, 연령, 억양에 따른 인식률 차이 발생 가능
- 개인정보 보안: 음성 데이터의 프라이버시 침해 우려
- 아직 대부분 클라우드 서비스에서는 공개용 preview API만 제공
- 디바이스, 브라우저 호환 문제
기술의 혁신과 더불어 '모두 함께 누리는 것'이 중요하다.
STT/TTS 기술 개요 및 전망 - 구글 슬라이드