- 음성을 실시간으로 입력받아 랭그래프 어시스턴트에게 입력하는 방법을 생각하는 데에 하루를 썼다.
- 다자간 대화가 조금 골치아픈 과제인 것 같다.
- 다자간 대화에서 화자 구분과 STT를 동시에 제공해주는 API는 돈이 든다. 게다가 음성을 식별해서 사람의 이름을 맞추주기까지 하는 서비스는 찾기 어렵다. 한 번에 할 수는 없을 것 같다.
- 오픈소스 실시간 STT 코드는 찾을 수 있을 것 같다.
- Text independent voice embedding도 깃허브에서 찾을 수 있었다. 내용에 상관없이 음성을 벡터화할 수 있다. 벡터 db에 저장하면 쉽게 화자 식별을 구현할 수 있을 것이다. (아마도)
- 실시간 화자 구분 코드도 오픈소스로 찾을 수 있었다.
- 위의 세 코드를 잘 조합해서, 실시간으로 입력받은 음성의 내용을 텍스트로 바꾸고, 화자 구분을 수행하여 텍스트를 분할한 다음, 그 중 일부를 벡터화해 각 화자의 이름을 맞추는 방식으로 STT 기능을 완성할 수 있을 것 같다.
- 중요한 것은 동작 속도이다...
- 대화 상대가 한 명일 때에는 이러한 기능을 비활성화하고 단순 STT만 사용할 수 있도록 해야 할 것 같다.