如何使用Microsoft Speech从语音模式中识别扬声器？

2018-06-03 05:07:42

我正在使用Microsoft Speech C＃API实现家庭自动化命令

我想知道是否有方法或内置C＃方法来散列语音输入并识别谁在说话。如果是Alice或Bob说“Hello Alice”或“Hello Bob”。

编辑：

Microsoft Speech API可以提供录制的.wav。它可能能够散列，处理......以了解谁在说话：

大声的声音，缓慢的调制，...... =>鲍勃

高语音，快速调制，... =>爱丽丝

说话人识别是一个难题，并且仍然是一个活跃的研究领域。我不认为微软语音API有任何扬声器识别支持，但不是100％肯定的。

在研究这个主题时，我发现以下文章非常有用。它介绍了该主题，并提供了一个非常粗糙的实现。可能是一个开始的好地方。

http://www.ibm.com/developerworks/opensource/library/os-sndpeek/index.html

您可以使用Microsoft扬声器识别API来执行此任务：https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

微软为此提供了两种API：发言者验证和发言者识别。

你可以在这里找到他们的C＃和Python SDK：https://github.com/Microsoft/ProjectOxford-ClientSDK/tree/master/SpeakerRecognition

它看起来像你试图解决议长Diarization问题（发现谁说话什么时候）; 因特网上有很多可用的工具包。我可以推荐一个名为LIUM的（在Java上运行）：http://www-lium.univ-lemans.fr/diarization/doku.php。

如果您对区分爱丽丝和鲍勃感兴趣，可以查看上述网站脚本页面中的性别检测部分（或直接浏览http://www-lium.univ-lemans.fr/diarization/doku .PHP / gender_detection）。

链接地址: http://www.djcxy.com/p/11079.html