“语音触发”检测

我有一个语音应用程序,如果能够使用“触发词”来开始录制音频,那么这个应用程序会有很大的改进。 我不需要一个完整的语音文本引擎,只需要能够可靠/有效地检测触发词。

我想知道是否有任何专门的语音引擎支持这个特定的用例,或者任何开发这种单一用途检测引擎的库/方法。 理想情况下,我希望它可以在嘈杂的环境中工作,但可以训练单个用户的语音。

研究论文/主题的指针也将被赞赏,所以我知道该问什么。


我的一位Red5项目的同事使用触发词创建了一个类似的演示,以使搜索针对图像存储库运行。 说“猫”导致猫出现在约一秒钟内的图像。 客户端应用程序使用Flash编写,后端使用免费的Sphinx库在Red5上运行。 没有太多努力,你当然可以用狮身人面像做你想做的。
狮身人面像项目:http://cmusphinx.sourceforge.net/sphinx4/


好的,我完全可以关闭,但使用全功能的语音识别库可能会对您的使用情况过度。

如果你可以接受简单但仍然是音频驱动的东西,可以考虑这个:

检测手掌是非常简单的。 手掌掌控整个音频频段的能量很高。 与全面的语音识别相比,检测它简单且计算方便得多。

简而言之,您可以记录音频,对数据执行(短时间)FFT,并检测80%可用频率箱中的高能量情况。 由于录音室/麦克风设置简单,80%可以处理任何阶段性问题。 然后调整thresold品尝,你就完成了。

在语音识别方面也可以做到这一点,但是您会烧掉大量的CPU周期。


什么O / S? 我想知道例如Windows Vista中的语音功能是否会对您有所帮助。 对于任何语音分析仪来说,认识到一个单词似乎是最简单的问题。

链接地址: http://www.djcxy.com/p/64297.html

上一篇: "Voice trigger" detection

下一篇: Detecting audio silence in WAV files using C#