在没有语音识别的情况下检测多个声音
有没有一种方法可以实时检测是否有多人在讲话? 我需要一个语音识别API吗?
我不想分开音频,我也不想转录它。 我的方法是使用一个麦克风( - > mono)频繁录制,然后分析这些录制内容。 但是,我怎么会发现并辨别声音呢? 我只想看看相关的频率来缩小范围,但是......
我明白,这不是一件小事。 这就是为什么我希望有一个能够开箱即用的api - 最好是移动/网页友好的api。
现在这听起来像圣诞节的购物清单,但如前所述,我不需要知道有关内容的任何信息。 所以我的猜测是,一个完整的语音识别会对性能产生很大的影响。
大多数类似的问题(成人/儿童分类器,语音/音乐分类器,单个语音/语音混合分类器)是标准机器学习问题。 你可以用GMM等分类器来解决它们。 您只需要为您的任务构建培训数据,因此:
你可以在这里找到一些代码示例:
https://github.com/littleowen/Conceptor
例如,你可以尝试
https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb
链接地址: http://www.djcxy.com/p/34449.html