STT/TTS 기술 개요 및 전망

Aaron·2025년 6월 23일
1

IT 콘텐츠

목록 보기
1/2

기술 동향

글로벌 빅테크 기업의 행보

Google

Google I/O 2025
멀티 모달 관련 기술 多

AI Studio
AI 개발을 위한 무료 웹 기반 통합 개발 환경
멀티 모달 관련 다양한 AI 기술 테스트 가능

  • Chat
  • Stream
    • Talk
    • Webcam
    • Share Screen
  • Generate Media
    • Image/Speech Generation
    • Imagen, Veo, Lyria Realtime
  • Build
    • 프롬프트 -> 자동 웹앱 생성 -> 즉시 배포 (원클릭)

Amazon

Alexa+

  • 2025년 새로 발표된 차세대 AI 어시스턴트
  • 생성형 AI로 강화된 자연스러운 대화 시스템

Microsoft

Github Copilot with Voice

  • 신체적 불편함이 있는 개발자에게 좋은 AI 어시스턴트 도구
  • Lip Coding 대회

최근 AI 기업의 부상

OpenAI

ChatGPT

  • 가장 자연스러운 대화 가능
  • 폭넓은 다양한 분야
  • 깊이 있는 연구 및 일상적인 질문에 강함

Perplexity

Perplexity

  • 웹 검색 및 실시간 정보 제공 최적
  • 보이스 - Push to talk 모드 제공

xAI

Grok 3

  • 실시간 X (트위터) 데이터 활용 가능
  • 독특한 성격 (창의적인 대화 스타일과 유머)
  • 무료 AI 모델 중 가장 강력한 기능 제공

접근성

OTT 플랫폼의 배리어 프리 서비스

Netflix, Watcha, …

  • 폐쇄형 자막
  • 음성 해설
  • TTS 호환 지원

Be My Eyes

시각 장애인을 위한 서비스

  • Accessibility with GPT-4o
  • 자원봉사자 연결 서비스
    • 실시간 비디오 연결 통해 즉석 시각적 도움 제공
  • Be My AI
    • AI 기반 이미지 설명 서비스
    • 36개 언어로 상세한 시각적 설명 제공

종합 핵심 키워드

- AI 어시스턴트, 멀티 모달, 접근성

STT/TTS 개요

STT/TTS 개요 및 기대 효과

STT의 개념

STT (Speech-To-Text)

위키백과에 따르면 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리라고 한다.
간단히 말하면 음성을 텍스트로 변환하는 음성 인식 기술이다.

예시)

  • 스마트폰 및 음성 비서: 시리, 구글, 카카오톡 음성 메시지 텍스트 자동 변환
  • 업무 환경: Zoom/Teams 등 실시간 자막 및 회의록 자동 작성, 콜센터 상담 내용 자동 기록
  • 교육 및 학습: 온라인 강의 자막 생성, 오디오북 텍스트 변환, 학습 노트 음성 입력
  • 엔터테인먼트: Youtube 자동 자막 생성, 게임 내 음성 채팅 텍스트 변환
  • 접근성 지원: 청각 장애인을 위한 실시간 자막, 거동 불편한 분들의 스마트 홈 제어
  • 자동차: 네비게이션, 음성으로 음악 재생 제어

TTS의 개념

TTS (Text-To-Speech)

위키백과에 따르면 말소리의 음파를 기계가 자동으로 만들어내는 기술이라고 한다.
간단히 말하면 텍스트를 음성으로 변환하는 음성 합성 기술이다.

예시)

  • 스마트폰 및 음성 비서: 시리, 알렉사
  • 업무 환경: 콜센터 자동 응답 시스템, PT 자동 음성 해설
  • 교육 및 학습: 어린이 동화책 읽어주기, 외국어 단어나 문장 발음 듣기
  • 엔터테인먼트: 게임 캐릭터 대사 음성 생성, 팟캐스트나 오디오 콘텐츠 제작
  • 접근성 지원: 시각 장애인을 위한 스크린 리더, 전자책 오디오북 변환
  • 자동차: 네비게이션 길 안내, 교통정보 음성 안내
  • 공공 서비스: 지하철/버스/공항/기차역 안내 방송

기대 효과

접근성 및 포용성 효과

  • 장애인 접근성 향상
    • 시각 장애인: TTS로 디지털 콘텐츠 접근성 대폭 향상
    • 청각 장애인: STT로 의사소통 장벽 해소
    • 언어 장애인: 비표준 발음 인식으로 음성 기술 기회 확대
  • 디지털 격차 해소
    • 디지털 보조기기 보급 확대로 정보 격차 줄이기
    • OTT 플랫폼 배리어 프리 서비스로 문화 콘텐츠 접근성 향상

모빌리티 및 안전 효과

  • 교통 안전 향상
    • 시각 장애인 보행 보조 앱
    • 실시간 음성 길 안내 네비게이션과 장애물 탐지
  • 자율 주행 발전

라이프스타일

  • 웨어러블 디바이스
  • 일상 자동화

기본 플로우 및 통신 방식

전망

시장 분석 및 예측

- 빠르게 성장하는 AI 음성 혁명

MarketsandMarkets

2025년 217억 달러 -> 2030년 734.9억 달러

2024년 40억 달러 -> 2029년 76억 달러

홍보

FE Conf 2025

국내 최대 프론트엔드 개발 컨퍼런스

  • 일시 : 2025년 8월 23일 토요일
  • 장소 : 세종대학교 광개토관
  • 규모 : 약 1,200명 예상 (변동 가능)
  • 발표 예정 : 음성 인터페이스 개발 여정: 모델 선택부터 사용성을 고려한 엔지니어링 - DevCra 김민수

FE Conf 2024 하이라이트

마무리

정리

핵심 키워드로 본 STT/TTS 기술 동향

  • AI 어시스턴트: 글로벌 빅테크의 차세대 음성 AI 경쟁 가속화
  • 멀티 모달: 음성 - 텍스트 - 이미지를 넘나드는 통합 AI 경험
  • 접근성: 장애인과 소외계층을 위한 포용적 기술 발전

급성장하는 시장 전망

  • STT/TTS 시장 모두 급성장 추세

도전 과제

  • 정확도 한계: 방언, 사투리, 배경, 소음, 빠른 발화 속도에서 STT 인식률 급격히 저하
  • 편향성 문제: 특정 성별, 연령, 억양에 따른 인식률 차이 발생 가능
  • 개인정보 보안: 음성 데이터의 프라이버시 침해 우려
  • 아직 대부분 클라우드 서비스에서는 공개용 preview API만 제공
  • 디바이스, 브라우저 호환 문제

기술의 혁신과 더불어 '모두 함께 누리는 것'이 중요하다.


STT/TTS 기술 개요 및 전망 - 구글 슬라이드

profile
꾸준하게 여유를 가지고 몰입하는 Software Engineer 입니다.

0개의 댓글