“语音触发”检测

2018-06-22 22:12:20

我有一个语音应用程序，如果能够使用“触发词”来开始录制音频，那么这个应用程序会有很大的改进。我不需要一个完整的语音文本引擎，只需要能够可靠/有效地检测触发词。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者任何开发这种单一用途检测引擎的库/方法。理想情况下，我希望它可以在嘈杂的环境中工作，但可以训练单个用户的语音。

研究论文/主题的指针也将被赞赏，所以我知道该问什么。

我的一位Red5项目的同事使用触发词创建了一个类似的演示，以使搜索针对图像存储库运行。说“猫”导致猫出现在约一秒钟内的图像。客户端应用程序使用Flash编写，后端使用免费的Sphinx库在Red5上运行。没有太多努力，你当然可以用狮身人面像做你想做的。
狮身人面像项目：http://cmusphinx.sourceforge.net/sphinx4/

好的，我完全可以关闭，但使用全功能的语音识别库可能会对您的使用情况过度。

如果你可以接受简单但仍然是音频驱动的东西，可以考虑这个：

检测手掌是非常简单的。手掌掌控整个音频频段的能量很高。与全面的语音识别相比，检测它简单且计算方便得多。

简而言之，您可以记录音频，对数据执行（短时间）FFT，并检测80％可用频率箱中的高能量情况。由于录音室/麦克风设置简单，80％可以处理任何阶段性问题。然后调整thresold品尝，你就完成了。

在语音识别方面也可以做到这一点，但是您会烧掉大量的CPU周期。

什么O / S？我想知道例如Windows Vista中的语音功能是否会对您有所帮助。对于任何语音分析仪来说，认识到一个单词似乎是最简单的问题。

链接地址: http://www.djcxy.com/p/64297.html

上一篇: "Voice trigger" detection

下一篇: Detecting audio silence in WAV files using C#