音频/语音比较和getUserMedia

2018-06-22 22:18:42

我正在构建一个需要语音激活命令的Web应用程序。我正在使用getUserMedia作为音频输入。

对于语音激活命令，该过程是用户需要通过记录他/她的语音来“校准”一个命令。例如，对于“停止”命令，用户会说“停止”一词，那么应用程序将保存音频片段。然后，用户发出“停止”命令，他/她会说“停止”一词。

现在的问题是，是否有任何方法可以比较/识别用户从他/她“校准”/先前录制的预先录制的音频命令发出的命令（音频输入）？换句话说，比较来自另一个音频（文件）的音频流。希望任何人都能指出我正确的方向，因为我一直在为此研究很长一段时间。

提前致谢。

注意：我不比较/识别SoundHound所做的音乐。另外，我不认为我需要语音识别，这对于我需要的机制来说太复杂也不必要。显然，如果没有语音识别，这很难，如果不是不可能的话。任何人都可以推荐一个语音识别库/ API（希望是javascript），我可以尝试一下吗？

没有语音识别，没有办法做到这一点，因为人类产生两个相同的音频文件的机会远远小于0.000000000000000000000000021％。

您可能能够识别出音调并将其与您的校准音频进行相当准确的比较，但是基于不是来自机器的简单音频比较来捕捉所说出的单词 - 绝不是绝对没有办法 。

您可以根据音高变化对某些单词/命令进行分类，在音节之间暂停长度，formants等等，但这些仍然是语音识别的第一步。

链接地址: http://www.djcxy.com/p/64309.html