语音识别中强制对齐的问题

我有一个系统让用户在提示后要求重复一个句子。 它使用HTK force-align用户口述句与预定义的词级别标签文件(句子)对齐,以获得时间对齐的电话级文件。 HMM已经接受了大量数据的培训,并且使用HVite提供了非常准确的时间对齐文件。 我的问题出现在用户没有说出需要说出的确切句子时。 让我用一个例子来说明:

  • 需要说出的目标语句的词级标签文件(用户已知):
    这是一个非常美好的日子。

  • 用户说(案例1):这是一个非常好的日子。
    在这种情况下,用户重复完全相同的句子。 时间对齐的文件非常准确,一切都很好。

  • 用户说(案例2):这是一个美好的日子。
    在这种情况下,使用上面给出的单词级别标签文件进行强制对齐。 由此产生的时间对齐文件显示用户从未说过的单词的时刻(例如非常存在于原始句子中但不在此处的单词)。

  • HTK有没有办法检测并避免这种情况?

    一种解决方案是某种可以进行语音识别的前端预处理器(本身就是一个非常难处理的问题,因为它必须有无限的词汇),并让用户知道他们所说的内容是不正确的。

    HTK中是否有任何工具/命令行选项允许我这样做?

    PS:请让我知道,以防需要更多细节。

    谢谢,
    斯利拉姆


    将文本与可能不正确的转录对齐的任务相当复杂,需要专门的工具。 HTK强制对齐过于简单。 不需要使用HVite,因为你需要构建一个合适的wdnet来解释由于转录错配引起的可能的插入,删除和替换。

    在CMUSphinx中,我们正在运行一个项目来实现这个功能。 您已经可以使用它来将文本与不精确的转录对齐。 你可以在这里检查它的进展:

    http://cmusphinx.sourceforge.net/?s=long+audio+alignment

    链接地址: http://www.djcxy.com/p/34425.html

    上一篇: A problem with forced alignment in speech recognition

    下一篇: Test Google Speech API with audio file