Google Speech API如何将音频组合到转录中?

当Google Speech API返回长时间的音频副本时,它将以不同长度的短文本形式返回,每个文本都带有一些相关的置信度值。 我想知道底层算法是如何决定在转录的音频块之间放置边界的地方,因为它似乎比简单地将音频分成固定时长段和分别转录每段音频更复杂(尽管我可能对此错误)。

链接地址: http://www.djcxy.com/p/34421.html

上一篇: How does Google Speech API chunk the audio for transcription?

下一篇: Google Speech to Text API not working