谷歌语音到文本的工作原理

我想知道,谷歌如何将语音转换为语音识别API中的文本。

他们是否已经存储了几乎所有的声音,并在特定的频率级别匹配它们,或者他们是否有一些不同的音频编码器和解码器算法来分析不同声音模式(如“A”,“The”,“B”,“V”,“ D“,”你好“等,

这也将是伟大的。 如果有人可以分享,如何编码音频以及如何用所有不同的声音过滤存储的音频,例如: -

有弹吉他,鼓和声音的音乐,我想分别用吉他声音在3个输出中滤除它们,分别鼓起声音,分开声音,并进一步将声音解码为文本。

任何关于大学的文件链接或研究论文都会很棒。

谢谢


谷歌语音识别器在这里描述。 要理解它,你可能需要先阅读教科书自动语音识别深度学习方法。

吉他和鼓的分离通常通过非负矩阵分解来实现。

链接地址: http://www.djcxy.com/p/5879.html

上一篇: How Google Speech to Text works?

下一篇: Open source tools for recognizing untranscribed speech without a dictionary