如何设置语音识别服务器?

如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech ,javascript等)? 该程序将以音频文件作为输入并以足够的准确度提供音频文件的文本转录。 我可以使用哪些选项?

我已经尝试过使用Voxforge模型实现Sphin4,但准确性很差(他们可能在我的配置中也存在一些问题,我仍然试图学习它)。 在一篇文章中,我读到当我们使用<input name="speech" id="speech" type="text" x-webkit-speech /> ,输入被发送到外部服务器和该服务器,而不是识别和发送数据回到浏览器。

我如何设置该服务器? 如果能够以最小的错误率识别英文句子,任何现有的开源服务器都会很有用。


你有一些问题:1.如何捕捉客户端中的音频。 2.如何将这些音频传输到服务器。 3.如何表彰。 4.如何传回识别和置信度分数。 5.你将如何处理这些识别和信心评分(你的申请)。

对于第一种情况,您可以使用谷歌的方法,有人点击麦克风图标,录制声音一段时间。 或者,iPhone Siri,VAD用于录制音频。

其次,它是基本的TCP / IP文件传输问题。 也可以使用Apple / Google方法并使用Flac或Speex压缩音频文件。

第三,这是非常困难的部分。 你需要更好的声学模型,你可以从Voxforge获得。 对于连续的语音识别来说,这是特别真实的,像Siri这样的背景。 对于命令,Voxforge很好。

第四,这是另一个文件传输问题。

第五,它是你的应用程序。

困难的部分是语音识别部分。 也许其他问题是如何为成千上万的用户扩展。 您可以使用Julius语音识别作为语音客户端来捕捉音频。 我们可以私下聊这个问题。

lfu 20 @ hot mail .com

路易斯Uebel

ASR实验室

www.asrlabs.com.br


你正在实施什么类型的应用程序? 应用程序的目的是将用户的口头输入转录成文本还是仅仅理解简单的命令? 像Sphinx4这样的系统使用语音转录的统计模型。 与使用语法来限制ASR的搜索空间以获得更好的识别的自动语音识别(ASR)系统相比,您不会像这些类型的系统那样获得良好的识别。 使用统计模型的系统需要大量的调整和试运行才能获得体面的认可。

Sphinx4是我知道的唯一的开源ASR。 Nuance是市场上最大的一些商业产品/服务。 一些商业产品可以选择包括人类在识别率低时抄录信息。

Google有一个非官方的API,它在内部用于Google Voice之类的服务,我相信它与您引用的webkit使用的API相同。 Google语音会将语音邮件转录并通过电子邮件发送给您。 谷歌语音被认为是最先进的转录技术,但是如果你有一个语音账户,你会发现转录的信息并不是那么好。 以下是关于使用非官方Google语音API的博客文章的链接。


在Chrome中,该服务器是专有的Google服务器。 你不能设置你自己的版本。 人们已经反向设计了对服务器的呼叫,例如http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/,但这不是一个好的创意,商业应用,因为Google可能会随时更改API或限制其访问权限。

以下是针对不同问题的旧回答,但它可能有所帮助 - https://stackoverflow.com/a/6351055/90236

链接地址: http://www.djcxy.com/p/5867.html

上一篇: How to setup a Speech Recognition Server?

下一篇: API or SDK for speech to text(speech recognition ) iphone