语音识别中强制对齐的问题

2018-06-12 00:34:29

我有一个系统让用户在提示后要求重复一个句子。它使用HTK force-align用户口述句与预定义的词级别标签文件（句子）对齐，以获得时间对齐的电话级文件。 HMM已经接受了大量数据的培训，并且使用HVite提供了非常准确的时间对齐文件。我的问题出现在用户没有说出需要说出的确切句子时。让我用一个例子来说明：

需要说出的目标语句的词级标签文件（用户已知）：
这是一个非常美好的日子。

用户说（案例1）：这是一个非常好的日子。
在这种情况下，用户重复完全相同的句子。时间对齐的文件非常准确，一切都很好。

用户说（案例2）：这是一个美好的日子。
在这种情况下，使用上面给出的单词级别标签文件进行强制对齐。由此产生的时间对齐文件显示用户从未说过的单词的时刻（例如非常存在于原始句子中但不在此处的单词）。

HTK有没有办法检测并避免这种情况？

一种解决方案是某种可以进行语音识别的前端预处理器（本身就是一个非常难处理的问题，因为它必须有无限的词汇），并让用户知道他们所说的内容是不正确的。

HTK中是否有任何工具/命令行选项允许我这样做？

PS：请让我知道，以防需要更多细节。

谢谢，
斯利拉姆

将文本与可能不正确的转录对齐的任务相当复杂，需要专门的工具。 HTK强制对齐过于简单。不需要使用HVite，因为你需要构建一个合适的wdnet来解释由于转录错配引起的可能的插入，删除和替换。

在CMUSphinx中，我们正在运行一个项目来实现这个功能。您已经可以使用它来将文本与不精确的转录对齐。你可以在这里检查它的进展：

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

链接地址: http://www.djcxy.com/p/34425.html

上一篇: A problem with forced alignment in speech recognition

下一篇: Test Google Speech API with audio file