使用哪种语音识别系统?
我想实施以下想法。 我需要我的用户打开网页或移动应用程序并说点什么。 用户的语音会被记录下来并发送到本地服务器,我希望服务器处理它并生成一些语音输出。
我的问题是:
使用哪种语音识别API? 在我的情况下,音频文件将被发送到服务器,之后它将被处理。
我需要识别姓名和姓氏。 这是一个潜在的问题,因为我不住在说英语的国家,并且姓名和姓氏对说英语的人来说可能是相当陌生的。 我想通过在语音识别系统的“词典”中添加所需的姓名和姓氏来实现这一点,所以我需要一个可以扩展它的词典的词典。
我需要一个自由的决定。
那么,我应该在执行我的想法时使用哪种语音识别API?
过去我使用CMU Sphinx工具包进行语音识别,取得了成功。 我在Android应用程序中使用了它的变体。 如果我没有记错,它确实允许创建一个特定单词字典来查找,以便它可以满足您的需求。
我建议你看看Nuance的Speech API。 他们有最好的市场,并可在任何平台上使用。 我们将它们用于我们的产品LinguSocial,该产品可为手机和座机提供近乎实时的语音呼叫转换,并提供机器翻译的视频聊天。
链接地址: http://www.djcxy.com/p/34369.html上一篇: Which speech recognition system to use?
下一篇: How is the data used for speech recognition collected and prepared?