7/25 STT(2)

JK·2023년 7월 25일

프로젝트 일정이 목요일까지 MVP 구현을 해야 해서 일단 어제까지 만든 음성을 텍스트로 바꿔주는 부분까지만 프로젝트 파일에 이어 붙이고 추가기능들은 다른 파일을 만들어서 작업을 하기로 했습니다.

발표를 하면서 음..., 어..., 아... 같은 의미 없는 단어들을 많이 쓰면 좋지 않다고 생각해 STT를 활용해 저런 부분들을 잡아내서 사용횟수를 카운트하고 사용자에게 알려주는 기능을 만들려고 했는데 여러 API나 데모 버전을 사용해본 결과 성능이 좋을수록 감탄사나 의미 없는 단어들을 필터링하는지 인식을 못 하는걸 발견했습니다

이 문제를 어떻게 해결해야 하나 고민하다가 멘토님과의 멘토링 시간에 질문을 드렸더니 다른 STT를 사용했을 때 텍스트데이터와 함께 사용자가 말을 한 시간 정보를 받을 수 있었고 그 시간 사이에 공백으로 사용자가 일정 시간 이상 말을 하지 않으면 그걸 알려주는 건 어떠냐는 대답을 받아서 멘토님이 사용하셨다는 구글의 Cloud Speech-to-Text에 대해 알아봤습니다

Cloud Speech-to-Text

다른 STT 서비스와 비교했을 때의 강점

정확성:
Cloud Speech-to-Text는 구글이 개발한 인공지능과 머신러닝 기술을 사용하여 매우 높은 정확성을 가지고 있습니다. 이것은 사람들이 말하는 내용을 정확하게 텍스트로 변환해준다는 뜻이에요. 그래서 사용자가 하는 말을 컴퓨터가 잘 이해해서 틀림없이 글로 바꿔줍니다.
다양한 언어 지원:
Cloud Speech-to-Text는 전 세계의 다양한 언어를 지원해요. 영어뿐만 아니라 한국어, 중국어, 스페인어 등 여러 언어를 인식할 수 있어요. 이는 다른 서비스에 비해 더 많은 사람들이 이용할 수 있도록 도와줍니다.
다양한 환경 지원:
Cloud Speech-to-Text는 음성 파일뿐만 아니라 실시간 스트리밍 데이터도 처리할 수 있어요. 즉, 우리가 지금 당장 말하는 것을 실시간으로 인식해서 글로 바꿔줄 수 있어요. 이는 음성 채팅이나 음성 검색 등 다양한 환경에서 사용할 수 있게 도와줍니다.
편리한 클라우드 서비스:
Cloud Speech-to-Text는 구글의 클라우드 환경에서 제공되는 서비스에요. 이는 사용자들이 별도로 서버나 소프트웨어를 구축하지 않아도 되고, 인터넷에 연결되어 있으면 어디서든 사용할 수 있다는 장점이 있어요.
확장성과 안정성:
Cloud Speech-to-Text는 수많은 사용자들이 동시에 사용해도 안정적으로 작동하며, 대규모 데이터 처리에도 능숙해요. 이는 많은 사람들이 동시에 음성을 변환해야 할 때도 문제없이 동작한다는 것을 의미합니다.

요약하자면, Cloud Speech-to-Text는 정확하고 다양한 언어와 환경을 지원하는 강력한 음성 인식 서비스입니다. 구글이 개발한 최신 기술을 사용하여 사용자들에게 편리하고 정확한 서비스를 제공합니다. 이러한 이유로 많은 사람들이 Cloud Speech-to-Text를 선택하고 있답니다.

사용가능한 추가기능

실시간 스트리밍 인식:
Cloud Speech-to-Text는 실시간 스트리밍 데이터를 처리할 수 있어서 음성 채팅, 음성 검색 등과 같이 실시간으로 음성을 인식하고 텍스트로 변환할 수 있습니다.
언어 및 방언 지원:
Cloud Speech-to-Text는 다양한 언어와 방언을 지원하여 전 세계의 다양한 사용자들이 자연스럽고 정확하게 음성을 변환할 수 있습니다.
다중 채널 음성 지원:
Cloud Speech-to-Text는 다중 채널 오디오 입력을 처리할 수 있어서 다양한 오디오 소스를 동시에 인식할 수 있습니다. 예를 들어, 회의나 그룹 대화에서 여러 사람이 말하는 음성을 동시에 처리할 수 있습니다.
침묵 감지:
Cloud Speech-to-Text는 음성에서 침묵이나 중단점을 감지할 수 있어서 음성 사이의 중단점을 기준으로 분리된 문장들을 추출할 수 있습니다.
음성 분리:
Cloud Speech-to-Text는 오디오 파일에서 여러 개의 화자의 음성을 자동으로 분리해낼 수 있어서 각 화자의 발화를 개별적으로 인식할 수 있습니다.
키워드 인식:
Cloud Speech-to-Text는 특정 키워드를 지정하여 해당 키워드가 포함된 음성을 탐지하고 인식할 수 있습니다. 이를 활용하여 특정 키워드에 반응하는 음성 기반 액션을 구현할 수 있습니다.
금칙어 필터링:
Cloud Speech-to-Text는 금칙어를 지정하여 해당 단어가 포함된 음성을 필터링할 수 있습니다. 이를 활용하여 부적절한 내용을 차단하거나 관리할 수 있습니다.
성능 향상을 위한 커스터마이징:
Cloud Speech-to-Text는 사용자가 오디오 데이터를 라벨링하여 모델을 세밀하게 조정할 수 있도록 지원합니다. 이를 통해 특정 산업이나 도메인에 최적화된 음성 인식 모델을 생성할 수 있습니다.

이러한 다양한 추가 기능들을 활용하여 Cloud Speech-to-Text를 보다 유연하게 사용할 수 있으며, 개발자들은 이러한 기능들을 조합하여 다양한 애플리케이션을 개발할 수 있습니다.

7/25 STT(2)

Cloud Speech-to-Text

다른 STT 서비스와 비교했을 때의 강점

사용가능한 추가기능

7/24 STT

7/25 STT(2)

0개의 댓글