在带有演讲的书中搜索
我正在尝试构建一个程序,用于查找书中的哪个页面/句子被读入麦克风。 我有这本书的文字和音频内容。 用户将从随机页面开始阅读,程序应该与用户同步并显示正在阅读的书籍部分。 这可能看起来没用,但请耐心等待。
类似于shazam程序的方法会起作用吗? 我不确定这些语音算法的有效性。 另外,演讲者会有所不同,可能会有不同的口音和不同的阅读速度。
另一种方法是将语音转换为文本并在书中搜索文本。 问题在于,这本书的语言是罕见的,没有可用的语言模型。 另外,脚本不使用拉丁字符,这使编程变得困难(至少对我而言)。
有没有人可以推荐的解决方案? 从音频文件中提取特征并与“实时”提取的特征(来自麦克风)进行比较会起作用吗? 哪些功能?
任何我可以开始的实现/代码? 任何语言都可以,但更喜欢C.
你需要使用语音识别器。
直接从书籍文本创建语言模型。 这将使得读书的阅读非常准确,无论是原始阅读还是用户阅读。
使用此语言模型来识别书籍并为单词指定时间戳,或使用更高级的算法将文本转换为音频对齐。
使用特定于书籍的语言模型识别用户的语音,并使用识别的文本在书中显示位置。
您可以将CMUSphinx用于所提及的任务。
链接地址: http://www.djcxy.com/p/5871.html