나는 API를 이용하여 녹음된 음성 파일을 텍스트를 변환하는 기능을 구현해야했는데 이때 화자의 구분이 가능해야 했으며 긴 음성 파일도 변환이 됐어야 했다.
듣기로는 네이버 클로바 API가 1분까지만 인식을 해준다고 해서 다음으로 고려한 것이 구글 클라우드 STT였다.
하지만 구글 홈페이지에서 음성 파일을 업로드해 화자 구분 테스트를 진행했을 때 세세하게 화자를 구분해주지 못하는 것 같았다.
결국 다시 리서치를 통해 사용할 API를 찾던 중 새로운 사실을 발견했다.
네이버에서는 CLOVA Speech Recognition(CSR)이라는 서비스와 CLOVA Speech라는 서비스를 제공하고 있었다.
그 중 CSR이 1분까지만 인식이 가능했고 CLOVA Speech는 더 긴 시간동안 인식이 가능한 것이었다!

CSR의 인식 가능 시간이 60초로 제한되는 것을 볼 수 있다.
또한 현재 시점을 기준으로 CSR 서비스에 들어가면 아래 사진과 같이 CLOVA Speech와 통합된 것을 볼 수 있었다. 그렇다면 CLOVA Speech는 어떤 기능들을 제공할까?


위의 사진을 보면 유형이 장문인식과 단문인식으로 구분되어 있다. REST API를 이용하여 장문인식을 할 경우 무료 6시간까지 인식이 가능했다!(든든하다💪)
또한 화자 구분 기능까지 제공했기에 이 서비스를 이용하지 않을 이유가 없었다.
다음과 같이 서비스 플랜과 이용하는 서비스에 따라 요금이 부과되니 참고하길 바란다.
처음 네이버 클로바 플랫폼에 가입하게 되면 무료 크레딧도 엄청 많이 제공하니까 마음놓고 써도 될 것 같다.(다 못쓸지도..)
이러한 조건들을 고려하여 나는 네이버에서 제공하는 서비스인 CLOVA Speech를 이용하기로 했다.
추가적인 내용은 아래 사이트를 참고하기!
https://www.ncloud.com/product/aiService/clovaSpeech#detail