直接从音频/转录语音到文本(语音识别)
需要能够使用语音到文本(语音识别)算法以高精度将包含语音的音频(例如从.MP3,其他音频格式)转换或转录成文本转录本。 有很多方法可以做到这一点,这些方法越来越精确,但是专门用于在设备麦克风中使用的语音(例如Google Translate /相应的API for web,适用于iOS的Dragon应用程序)。 我需要一种方法将音频文件直接送入语音识别引擎/ API。 不想通过扬声器播放音频并用麦克风捕捉音频 - 需要相当长的时间处理长音频文件,并降低音频质量和转录质量。 Web服务或API或代码是否存在? 现有服务中是否有一种假设麦克风将成为来源的包装?
谢谢
现在有一个相对较新的服务,可以将语音转化为文本自动转录,以及用于编辑结果的人机界面。 它的:
https://trint.com/
我们已经使用它,并且对结果感到满意。 转录当然不是完美的,但它是一个很好的开始,它允许准备好人工编辑。
现在还有IBM Bluemix / Watson提供的新API和服务。 你可以在这里试试免费的演示:
https://speech-to-text-demo.mybluemix.net/
这项服务将音频(来自麦克风或音频文件)转换为文本非常体面。 目前至少在演示中,它似乎不使用MP3,但会使用wav和其他格式。 该服务具有完整的API,并且主要被设计为内置于应用程序中。
您可以在Windows或Linux(pavucontrol)中使用立体声混音器来捕获不带麦克的音频,然后使用Google语音识别。 音频到文本没有麦克风
链接地址: http://www.djcxy.com/p/34353.html上一篇: Speech to Text (Voice Recognition) Directly from Audio / Transcription
下一篇: List out the Third Party Speech Recognition SDK or Library