目前语音识别的一般状态是什么?

我目前正在评估语音识别(SR)技术的cyrrebt状态,而且似乎有不少API和服务正在涌现。

我自己的SR经验是,关键字匹配可以很好地与多个扬声器配合使用,而听写能够在非常受控的环境中使用受过训练的扬声器正常工作 这仍然是真的吗? 是否有任何好的方法可以对任意音频文件的文本进行演讲 - 可以从音频流中进行关键字匹配以进行索引,或者可以尝试进行完整转录。

有没有人对细微差别与其他引擎与开源解决方案的比较有任何评论?


虽然围绕语音识别设计的更新和更友好的应用程序将继续写入,但语音识别本身已经到了一堵砖墙。 甚至是最好的发动机的精确度在噪音存在下迅速下降,这对于经常在嘈杂环境中使用该技术的智能手机用户来说是个大问题。

一个更大和相关的问题是,语音识别器不能在多个声音(鸡尾酒会问题)中挑出一个单一的声音,这是大多数人相对容易处理的。 在有人解决这个问题之前,恐怕语音识别技术不会进步太多。 这是一个十亿美元的问题,因为解决方案将使现有的语音识别引擎几乎在一夜之间过时。

链接地址: http://www.djcxy.com/p/34431.html

上一篇: What's the general state of speech recognition right now?

下一篇: Open source for Automatic Speech Matching ?