STT/TTS 기술 개요 및 전망

Aaron·2025년 6월 23일

feconf stt tts 음성 인식 음성 합성 접근성

IT 콘텐츠

목록 보기

1/2

기술 동향

글로벌 빅테크 기업의 행보

Google

Google I/O 2025
멀티 모달 관련 기술 多

Gemini 2.5 Pro/Flash
- Google Meet 실시간 번역
- Project Astra 범용 AI 어시스턴트
Gemma 3n
- 온디바이스 경험 기반 AI
Signgemma
- 미국 수화를 영어로 번역
Veo 3
- 배경음, 캐릭터 간의 대화를 네이티브로 지원
- 음성이 포함된 영상 생성 가능
- Flow 영화 제작 도구로 전체 워크플로우 관리

AI Studio
AI 개발을 위한 무료 웹 기반 통합 개발 환경
멀티 모달 관련 다양한 AI 기술 테스트 가능

Chat
Stream
- Talk
- Webcam
- Share Screen
Generate Media
- Image/Speech Generation
- Imagen, Veo, Lyria Realtime
Build
- 프롬프트 -> 자동 웹앱 생성 -> 즉시 배포 (원클릭)

Amazon

Alexa+

2025년 새로 발표된 차세대 AI 어시스턴트
생성형 AI로 강화된 자연스러운 대화 시스템

Microsoft

Github Copilot with Voice

신체적 불편함이 있는 개발자에게 좋은 AI 어시스턴트 도구
Lip Coding 대회

최근 AI 기업의 부상

OpenAI

ChatGPT

가장 자연스러운 대화 가능
폭넓은 다양한 분야
깊이 있는 연구 및 일상적인 질문에 강함

Perplexity

웹 검색 및 실시간 정보 제공 최적
보이스 - Push to talk 모드 제공

xAI

Grok 3

실시간 X (트위터) 데이터 활용 가능
독특한 성격 (창의적인 대화 스타일과 유머)
무료 AI 모델 중 가장 강력한 기능 제공

접근성

OTT 플랫폼의 배리어 프리 서비스

Netflix, Watcha, …

폐쇄형 자막
음성 해설
TTS 호환 지원

Be My Eyes

시각 장애인을 위한 서비스

Accessibility with GPT-4o
자원봉사자 연결 서비스
- 실시간 비디오 연결 통해 즉석 시각적 도움 제공
Be My AI
- AI 기반 이미지 설명 서비스
- 36개 언어로 상세한 시각적 설명 제공

종합 핵심 키워드

- AI 어시스턴트, 멀티 모달, 접근성

STT/TTS 개요

STT/TTS 개요 및 기대 효과

STT의 개념

STT (Speech-To-Text)

위키백과에 따르면 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리라고 한다.
간단히 말하면 음성을 텍스트로 변환하는 음성 인식 기술이다.

예시)

스마트폰 및 음성 비서: 시리, 구글, 카카오톡 음성 메시지 텍스트 자동 변환
업무 환경: Zoom/Teams 등 실시간 자막 및 회의록 자동 작성, 콜센터 상담 내용 자동 기록
교육 및 학습: 온라인 강의 자막 생성, 오디오북 텍스트 변환, 학습 노트 음성 입력
엔터테인먼트: Youtube 자동 자막 생성, 게임 내 음성 채팅 텍스트 변환
접근성 지원: 청각 장애인을 위한 실시간 자막, 거동 불편한 분들의 스마트 홈 제어
자동차: 네비게이션, 음성으로 음악 재생 제어

TTS의 개념

TTS (Text-To-Speech)

위키백과에 따르면 말소리의 음파를 기계가 자동으로 만들어내는 기술이라고 한다.
간단히 말하면 텍스트를 음성으로 변환하는 음성 합성 기술이다.

예시)

스마트폰 및 음성 비서: 시리, 알렉사
업무 환경: 콜센터 자동 응답 시스템, PT 자동 음성 해설
교육 및 학습: 어린이 동화책 읽어주기, 외국어 단어나 문장 발음 듣기
엔터테인먼트: 게임 캐릭터 대사 음성 생성, 팟캐스트나 오디오 콘텐츠 제작
접근성 지원: 시각 장애인을 위한 스크린 리더, 전자책 오디오북 변환
자동차: 네비게이션 길 안내, 교통정보 음성 안내
공공 서비스: 지하철/버스/공항/기차역 안내 방송

기대 효과

접근성 및 포용성 효과

장애인 접근성 향상
- 시각 장애인: TTS로 디지털 콘텐츠 접근성 대폭 향상
- 청각 장애인: STT로 의사소통 장벽 해소
- 언어 장애인: 비표준 발음 인식으로 음성 기술 기회 확대
디지털 격차 해소
- 디지털 보조기기 보급 확대로 정보 격차 줄이기
- OTT 플랫폼 배리어 프리 서비스로 문화 콘텐츠 접근성 향상

모빌리티 및 안전 효과

교통 안전 향상
- 시각 장애인 보행 보조 앱
- 실시간 음성 길 안내 네비게이션과 장애물 탐지
자율 주행 발전

라이프스타일

웨어러블 디바이스
일상 자동화

기본 플로우 및 통신 방식

전망

시장 분석 및 예측

- 빠르게 성장하는 AI 음성 혁명

MarketsandMarkets

2025년 217억 달러 -> 2030년 734.9억 달러

2024년 40억 달러 -> 2029년 76억 달러

홍보

FE Conf 2025

국내 최대 프론트엔드 개발 컨퍼런스

일시 : 2025년 8월 23일 토요일
장소 : 세종대학교 광개토관
규모 : 약 1,200명 예상 (변동 가능)
발표 예정 : 음성 인터페이스 개발 여정: 모델 선택부터 사용성을 고려한 엔지니어링 - DevCra 김민수

FE Conf 2024 하이라이트

마무리

정리

핵심 키워드로 본 STT/TTS 기술 동향

AI 어시스턴트: 글로벌 빅테크의 차세대 음성 AI 경쟁 가속화
멀티 모달: 음성 - 텍스트 - 이미지를 넘나드는 통합 AI 경험
접근성: 장애인과 소외계층을 위한 포용적 기술 발전

급성장하는 시장 전망

STT/TTS 시장 모두 급성장 추세

도전 과제

정확도 한계: 방언, 사투리, 배경, 소음, 빠른 발화 속도에서 STT 인식률 급격히 저하
편향성 문제: 특정 성별, 연령, 억양에 따른 인식률 차이 발생 가능
개인정보 보안: 음성 데이터의 프라이버시 침해 우려
아직 대부분 클라우드 서비스에서는 공개용 preview API만 제공
디바이스, 브라우저 호환 문제

기술의 혁신과 더불어 '모두 함께 누리는 것'이 중요하다.

STT/TTS 기술 개요 및 전망 - 구글 슬라이드

Aaron

꾸준하게 여유를 가지고 몰입하는 Software Engineer 입니다.

다음 포스트