在带有演讲的书中搜索

2018-05-31 01:02:32

我正在尝试构建一个程序，用于查找书中的哪个页面/句子被读入麦克风。我有这本书的文字和音频内容。用户将从随机页面开始阅读，程序应该与用户同步并显示正在阅读的书籍部分。这可能看起来没用，但请耐心等待。

类似于shazam程序的方法会起作用吗？我不确定这些语音算法的有效性。另外，演讲者会有所不同，可能会有不同的口音和不同的阅读速度。

另一种方法是将语音转换为文本并在书中搜索文本。问题在于，这本书的语言是罕见的，没有可用的语言模型。另外，脚本不使用拉丁字符，这使编程变得困难（至少对我而言）。

有没有人可以推荐的解决方案？从音频文件中提取特征并与“实时”提取的特征（来自麦克风）进行比较会起作用吗？哪些功能？

任何我可以开始的实现/代码？任何语言都可以，但更喜欢C.

你需要使用语音识别器。

直接从书籍文本创建语言模型。这将使得读书的阅读非常准确，无论是原始阅读还是用户阅读。

使用此语言模型来识别书籍并为单词指定时间戳，或使用更高级的算法将文本转换为音频对齐。

使用特定于书籍的语言模型识别用户的语音，并使用识别的文本在书中显示位置。

您可以将CMUSphinx用于所提及的任务。

链接地址: http://www.djcxy.com/p/5871.html