在没有语音识别的情况下检测多个声音

2018-06-12 00:46:53

有没有一种方法可以实时检测是否有多人在讲话？我需要一个语音识别API吗？

我不想分开音频，我也不想转录它。我的方法是使用一个麦克风（ - > mono）频繁录制，然后分析这些录制内容。但是，我怎么会发现并辨别声音呢？我只想看看相关的频率来缩小范围，但是......

我明白，这不是一件小事。这就是为什么我希望有一个能够开箱即用的api - 最好是移动/网页友好的api。

现在这听起来像圣诞节的购物清单，但如前所述，我不需要知道有关内容的任何信息。所以我的猜测是，一个完整的语音识别会对性能产生很大的影响。

大多数类似的问题（成人/儿童分类器，语音/音乐分类器，单个语音/语音混合分类器）是标准机器学习问题。你可以用GMM等分类器来解决它们。您只需要为您的任务构建培训数据，因此：

采取一些干净的录音，你可以下载有声读物

通过混合干净的录音准备混合数据

在两者上训练GMM分类器

比较干净语音GMM和混合语音GMM的概率，并根据两个分类器的概率比例来决定混合的存在。

你可以在这里找到一些代码示例：

https://github.com/littleowen/Conceptor

例如，你可以尝试

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

链接地址: http://www.djcxy.com/p/34449.html