如何训练音节而不是使用HTK的手机?

我正在尝试使用隐马尔可夫模型工具包(HTK)开发语音到文本转换系统。 有几种可能的方法来模拟用于单词识别的HMM:

  • 使用电话(单音和三音)
  • 使用音节
  • 用词
  • HTK手册和HTK上的VoxForge教程为我们提供了如何为每个单音或三音模拟HMM的分步说明。 我已经为印度Langauge(卡纳达)成功实施了这项工作。 但是,这两个源都告诉我们如何使用基于Syllable的HMM建模来实现相同的功能。

    根据一篇关于使用依赖于上下文的音节的ASR的论文:

    HTK和LASER都不直接支持使用音节来实现转换算法。 这仅将单音ASR的配置文件转换为音节ASR的格式。

    他们说我们需要修改配置文件以适应音节而不是单音。 遵循VoxForge教程中的10个步骤,配置文件如下所示:

  • config,wav_config:指定用于从训练wav文件生成特征向量的配置参数

  • sample.jconf:使用julius进行语音识别的配置。

  • 但是,以任何方式更改这些文件都无助于识别音节。

    相反,我执行了类似于基于手机建模的步骤,即创建一个单音发音字典和HMM训练,共9轮。 这相当于voxforge教程的前8个步骤。 然而,在三音模型的情况下,我不是为每个单词创建三音素,而是将每个单词分割成音节并从每个音节创建三音素(和双音素)。 您可能无法阅读这种语言的卡纳达语,但我会显示一些样本,以便您可以看到我正在处理的内容。

    在triphone建模时,我只是为普通的triphones建模,我的triphone词典dict-tri是以下(完美工作):

    ಅತಿ            ಅ+ತ್ ಅ-ತ್+ಇ ತ್-ಇ sp
    ಅದರ        ಅ+ದ್ ಅ-ದ್+ಅ ದ್-ಅ+ರ್ ಅ-ರ್+ಅ ರ್-ಅ sp
    ಅದು            ಅ+ದ್ ಅ-ದ್+ಉ ದ್-ಉ sp
    

    在将单词分解为音节并将每个音节转换为单音,双音和三音的新方法中,同一个词典就像:

    ಅತಿ          ಅ ತ್+ಇ ತ್-ಇ sp
    ಅದರ         ಅ ದ್+ಅ ದ್-ಅ ರ್+ಅ ರ್-ಅ sp
    ಅದು          ಅ ದ್+ಉ ದ್-ಉ sp
    

    尽管您可能无法阅读该语言,但应该清楚,我的目标是显着减少HMM模型的数量。 然而,在运行julius时,我得到了以下错误:

        STAT: include config: sample.jconf
        STAT: jconf successfully finalized
        STAT: *** loading AM00 _default
        Stat: init_phmm: Reading in HMM definition
        Stat: rdhmmdef: ascii format HMM definition
        Stat: rdhmmdef: limit check passed
        Stat: check_hmm_restriction: an HMM with several arcs from initial state found: "sp"
        Stat: rdhmmdef: this HMM requires multipath handling at decoding
        Stat: rdhmmdef: no <SID> embedded
        Stat: rdhmmdef: assign SID by the order of appearance
        Stat: init_phmm: defined HMMs:   200
        Stat: init_phmm: loading ascii hmmlist
        Stat: init_phmm: logical names:   562 in HMMList
        Stat: init_phmm: base phones:    48 used in logical
        Stat: init_phmm: finished reading HMM definitions
        STAT: making pseudo bi/mono-phone for IW-triphone
        Stat: hmm_lookup: 5 pseudo phones are added to logical HMM list
        STAT: *** AM00 _default loaded
        STAT: *** loading LM00 _default
        STAT: reading [sample.dfa] and [sample.dict]...
        Error: voca_load_htkdict: line 3: triphone "*-ಅ+ತ್" or biphone "ಅ+ತ್" not found
        Error: voca_load_htkdict: line 3: triphone "ಅ-ತ್+ಇ" not found
        Error: voca_load_htkdict: the line content was: 2   [ಅತಿ]   ಅ ತ್ ಇ 
        Error: voca_load_htkdict: line 4: triphone "*-ಅ+ತ್" or biphone "ಅ+ತ್" not found
        Error: voca_load_htkdict: line 4: triphone "ಅ-ತ್+ಯ್" not found
        Error: voca_load_htkdict: line 4: triphone "ತ್-ಯ್+ಅ" not found
        Error: voca_load_htkdict: line 4: triphone "ಯ್-ಅ+ದ್" not found
        Error: voca_load_htkdict: line 4: triphone "ಅ-ದ್+ಭ್" not found
        Error: voca_load_htkdict: line 4: triphone "ದ್-ಭ್+ಉ" not found
        Error: voca_load_htkdict: line 4: triphone "ಭ್-ಉ+ತ್" not found
        Error: voca_load_htkdict: line 4: triphone "ಉ-ತ್+ಅ" not found
        Error: voca_load_htkdict: the line content was: 2   [ಅತ್ಯದ್ಭುತ] ಅ ತ್ ಯ್ ಅ ದ್ ಭ್ ಉ ತ್ ಅ 
        Error: voca_load_htkdict: line 5: triphone "*-ಅ+ಥ್" or biphone "ಅ+ಥ್" not found
        Error: voca_load_htkdict: line 5: triphone "ಅ-ಥ್+ಅ" not found
        Error: voca_load_htkdict: line 5: triphone "ಥ್-ಅ+ವ್" not found
        Error: voca_load_htkdict: line 5: triphone "ಅ-ವ್+ಆ" not found
        .
        .
        .
        (over 200 more lines of the same)
        .
        .
        Error: voca_load_htkdict: ಹ್-ಒ+ಯ್
        Error: voca_load_htkdict: ಹ್-ಒ+ರ್
        Error: voca_load_htkdict: ಹ್-ಒ+ಳ್
        Error: voca_load_htkdict: ಹ್-ಓ+ಗ್
        Error: voca_load_htkdict: ಹ್-ಓ+ರ್
        Error: voca_load_htkdict: ಹ್-ಯ್+ಅ
        Error: voca_load_htkdict: ಹ್-ಯ್+ಆ
        Error: voca_load_htkdict: end missing phones
        Error: init_voca: error in reading sample.dict: 748 words failed out of 7 words
        ERROR: failed to read dictionary "sample.dict"
        ERROR: m_fusion: some error occured in reading grammars
        ERROR: Error in loading model
    

    我究竟做了什么错误? 从它的外观来看,错误状态表明我已经喂养了尚未建模的triphones。 但是显示的所有Error都是我甚至没有使用过的triphones。 作为参考,以下是用于创建音节的所有单声道,双声道和三声道电话列表(triphones1替换):

    ಲ್-ಅ+ಮ್
    ತ್-ಇ+ಮ್
    ಘ್-ಅ+ಮ್
    ನ್-ಊ+ಮ್
    ಛ್-ಈ
    ಛ್-ಅ
    ಛ್-ಆ
    ಛ್-ಇ
    ಭ್-ಆ
    ಭ್-ಇ
    ಭ್-ಅ
    ಭ್-ಊ
    ಭ್-ಈ
    ಭ್-ಉ
    ಕ್-ಒ+ಮ್
    ಭ್-ಏ
    ಬ್+ಓ
    ಬ್+ಒ
    ಞ್+ಆ
    ಬ್-ಅ+ಮ್
    ಬ್+ಔ
    ಬ್+ಇ
    ಬ್+ಆ
    ಬ್+ಅ
    ಬ್+ಉ
    ಬ್+ಈ
    ಬ್+ಏ
    ಬ್+ಎ
    ರ್-ಒ+ಮ್
    ತ್+ಊ
    ತ್+ಉ
    ಲ್-ಆ+ಮ್
    ತ್+ಏ
    ತ್+ಎ
    ತ್+ಇ
    ತ್+ಆ
    ತ್+ಅ
    ತ್+ಐ
    ಕ್-ಇ+ಮ್
    ಹ್-ಒ
    ಹ್-ಓ
    ಹ್-ಎ
    ಹ್-ಈ
    ಹ್-ಉ
    ಹ್-ಆ
    ಹ್-ಇ
    ಖ್-ಅ+ಮ್
    ಹ್-ಅ
    ವ್-ಒ
    ವ್-ಐ
    ಖ್+ಊ
    ಖ್
    ವ್-ಉ
    ವ್-ಎ
    ವ್-ಏ
    ಢ್+ಇ
    ಢ್+ಆ
    ವ್-ಆ
    ವ್-ಇ
    ವ್-ಅ
    ಕ್-ಆ+ಮ್
    ಹ್-ಅ+ಮ್
    ಠ್-ಈ
    ಠ್-ಏ
    ಠ್-ಅ
    ಳ್-ಎ+ಮ್
    ಸ್-ಎ+ಮ್
    ಸ್-ಅ
    ಸ್-ಇ
    ಸ್-ಆ
    ಸ್-ಉ
    ಸ್-ಈ
    ದ್-ಅ+ಮ್
    ಸ್-ಊ
    ಶ್-ಇ
    ಶ್-ಆ
    ಶ್-ಅ
    ಸ್-ಎ
    ಸ್-ಐ
    ಸ್-ಓ
    ಸ್-ಒ
    ಸ್-ಔ
    ಗ್-ಅ+ಮ್
    ಡ್-ಉ
    ಶ್+ಅ
    ಶ್+ಇ
    ಶ್+ಆ
    ಡ್-ಇ
    ದ್
    ಡ್-ಅ
    ಡ್-ಎ
    ಪ್-ಔ
    ಪ್-ಓ
    ಪ್-ಐ
    ಧ್+ಊ
    ಪ್-ಎ
    ಧ್+ಈ
    ಧ್+ಉ
    ಪ್-ಊ
    ಪ್-ಉ
    ಪ್-ಇ
    ಪ್-ಆ
    ಪ್-ಅ
    ಯ್-ಅ
    ನ್
    ಧ್+ಇ
    ಧ್+ಅ
    ಜ್
    ಧ್+ಆ
    ಷ್-ಈ
    ತ್-ಅ+ಮ್
    ಷ್-ಏ
    ಷ್-ಅ
    ಷ್-ಆ
    ಷ್-ಇ
    ಛ್+ಇ
    sp
    ಹ್
    ಞ್-ಆ
    ಥ್-ಈ
    ಥ್-ಎ
    ಥ್-ಏ
    ಥ್-ಆ
    ಥ್-ಇ
    ಥ್-ಅ
    ಚ್
    ಯ್
    ಮ್
    ಟ್
    ಳ್+ಎ
    ಜ್+ಇ
    ಜ್+ಆ
    ಜ್+ಅ
    ಳ್+ಉ
    ಳ್+ಆ
    ಳ್+ಇ
    ಜ್+ಉ
    ಳ್+ಅ
    ಜ್+ಎ
    ಖ್+ಐ
    ಜ್+ಓ
    ಜ್+ಐ
    ಊ+ಮ್
    ಳ್
    ಶ್
    ರ್-ಎ+ಮ್
    ರ್-ಓ
    ಆ-ಮ್
    ರ್-ಉ
    ಗ್+ಒ
    ರ್-ಊ
    ರ್-ಏ
    ರ್-ಎ
    ರ್-ಅ
    ಟ್-ಊ
    ರ್-ಇ
    ರ್-ಆ
    ಚ್+ಉ
    ಚ್+ಈ
    ಟ್-ಋ
    ಬ್-ಎ+ಮ್
    ಚ್+ಎ
    ಚ್+ಅ
    ಚ್+ಇ
    ಚ್+ಆ
    ದ್-ಒ+ಮ್
    ನ್+ಓ
    ನ್+ಒ
    ನ್+ಐ
    ನ್+ಇ
    ನ್+ಆ
    ನ್+ಅ
    ಗ್-ಒ+ಮ್
    ನ್+ಏ
    ನ್+ಎ
    ನ್+ಊ
    ನ್+ಉ
    ನ್+ಈ
    ತ್-ಉ+ಮ್
    ಧ್-ಈ
    ಧ್-ಉ
    ಧ್-ಊ
    ಟ್+ಆ
    ಟ್+ಇ
    ಟ್+ಅ
    ಟ್+ಊ
    ಟ್+ಋ
    ಟ್+ಈ
    ಟ್+ಉ
    ಧ್-ಅ
    ಧ್-ಆ
    ಧ್-ಇ
    ಗ್+ಊ
    ಚ್-ಎ
    ಗ್+ಈ
    ಗ್+ಉ
    ಗ್+ಎ
    ಗ್+ಏ
    ಚ್-ಉ
    ಚ್-ಈ
    ಚ್-ಇ
    ಚ್-ಆ
    ಚ್-ಅ
    ಗ್+ಆ
    ಗ್+ಇ
    ಖ್+ಓ
    ಗ್+ಅ
    ಖ್+ಏ
    ತ್+ಈ
    ಖ್+ಉ
    ಟ್-ಅ
    ಟ್-ಆ
    ಟ್-ಇ
    ಖ್+ಅ
    ಟ್-ಉ
    ಖ್+ಇ
    ಖ್+ಆ
    ನ್-ಅ+ಮ್
    ಬ್-ಔ
    ವ್+ಐ
    ವ್+ಒ
    ಒ-ಮ್
    ಫ್-ಎ
    ಸ್-ಅ+ಮ್
    ವ್+ಉ
    ವ್+ಎ
    ವ್+ಏ
    ವ್+ಅ
    ವ್+ಆ
    ಯ್-ಅ+ಮ್
    ಹ್+ಉ
    ಕ್-ಅ+ಮ್
    ದ್-ಇ+ಮ್
    ವ್+ಇ
    ಖ್-ಇ
    ಡ್-ಅ+ಮ್
    ಥ್+ಅ
    ಖ್-ಅ
    ಸ್+ಇ
    ಸ್+ಆ
    ಸ್+ಅ
    ಫ್+ಅ
    ರ್+ಎ
    ಫ್+ಎ
    ಸ್+ಎ
    ಎ+ಮ್
    ಸ್+ಉ
    ಸ್+ಈ
    ಖ್-ಆ
    ಸ್+ಔ
    ಸ್+ಓ
    ಸ್+ಒ
    ಸ್+ಐ
    ಗ್-ಆ+ಮ್
    ಖ್-ಓ
    ದ್+ಋ
    ಠ್+ಏ
    ಠ್+ಈ
    ಠ್+ಅ
    ಣ್+ಎ
    ಣ್+ಉ
    ಣ್+ಆ
    ಣ್+ಇ
    ಣ್+ಅ
    ಏ-ಮ್
    ಲ್+ಅ
    ಲ್+ಇ
    ಲ್+ಆ
    ಲ್+ಉ
    ರ್-ಇ+ಮ್
    ಲ್+ಊ
    ಲ್+ಏ
    ಲ್+ಎ
    ನ್-ಇ+ಮ್
    ಬ್-ಅ
    ಬ್-ಇ
    ಬ್-ಆ
    ಬ್-ಏ
    ಬ್-ಎ
    ಬ್-ಉ
    ಬ್-ಈ
    ಛ್+ಆ
    ರ್-ಆ+ಮ್
    ಛ್+ಅ
    ಧ್
    ಬ್-ಓ
    ಬ್-ಒ
    ರ್-ಅ+ಮ್
    ಕ್-ಏ+ಮ್
    ಛ್+ಈ
    ಷ್+ಏ
    ದ್-ಒ
    ದ್-ಋ
    ದ್-ಊ
    ದ್-ಉ
    ದ್-ಈ
    ದ್-ಏ
    ದ್-ಎ
    ದ್-ಇ
    ದ್-ಆ
    ದ್-ಅ
    ಗ್
    ತ್-ಐ
    ತ್-ಏ
    ತ್-ಎ
    ತ್-ಉ
    ತ್-ಈ
    ತ್-ಊ
    ತ್-ಅ
    ತ್-ಇ
    ತ್-ಆ
    ಝ್+ಓ
    ಯ್-ಆ+ಮ್
    ಘ್-ಅ
    ಘ್-ಆ
    ತ್-ಎ+ಮ್
    ಘ್-ಓ
    ಢ್+ಅ
    ಛ್-ಅ+ಮ್
    ಮ್+ಔ
    ಸ್-ಇ+ಮ್
    ಮ್+ಐ
    ಮ್+ಒ
    ಮ್+ಅ
    ಮ್+ಇ
    ಮ್+ಆ
    ಮ್+ಏ
    ಮ್+ಎ
    ಮ್+ಉ
    ಮ್+ಈ
    ಮ್+ಊ
    ಪ್+ಐ
    ಪ್+ಓ
    ಇ-ಮ್
    ನ್-ಒ+ಮ್
    ಪ್+ಉ
    ಪ್+ಊ
    ಪ್+ಎ
    ಪ್+ಅ
    ಪ್+ಇ
    ಪ್+ಆ
    ಘ್+ಆ
    ಘ್+ಅ
    ಮ್-ಅ+ಮ್
    ಇ+ಮ್
    ಘ್+ಓ
    ಒ+ಮ್
    ಔ-ಮ್
    ಪ್-ಉ+ಮ್
    ಬ್
    ಳ್+ಊ
    ಭ್+ಏ
    ಡ್
    ಬ್-ಇ+ಮ್
    ಟ್-ಈ
    ಢ್-ಇ
    ಢ್-ಆ
    ಢ್-ಅ
    ಯ್-ಇ+ಮ್
    ಜ್+ಈ
    ಷ್-ಎ
    ಫ್
    ತ್-ಊ+ಮ್
    ಥ್+ಈ
    ಖ್-ಊ
    ಖ್-ಉ
    ಖ್-ಏ
    ಥ್+ಎ
    ಥ್+ಏ
    ರ್+ಓ
    ರ್+ಒ
    ಥ್+ಆ
    ಥ್+ಇ
    ರ್+ಏ
    ನ್-ಎ+ಮ್
    ಕ್
    ರ್+ಊ
    ರ್+ಉ
    ರ್+ಈ
    ರ್+ಇ
    ರ್+ಆ
    ರ್+ಅ
    ಖ್-ಐ
    ಳ್-ಅ
    ಳ್-ಆ
    ಳ್-ಇ
    ಲ್-ಇ+ಮ್
    ಳ್-ಎ
    ಹ್-ಇ+ಮ್
    ಳ್-ಉ
    ಳ್-ಊ
    ಸ್+ಊ
    ಭ್+ಈ
    ಲ್
    ಔ
    ಐ
    ಓ
    ಒ
    ಎ-ಮ್
    ಅ
    ಇ
    ಆ
    ಉ-ಮ್
    ಸ್+ಏ
    ಏ
    ಎ
    ಉ
    ಈ
    ಋ
    ಊ
    ಷ್
    ನ್-ಓ
    ನ್-ಒ
    ಭ್+ಅ
    ಭ್+ಆ
    ಭ್+ಇ
    ತ್
    ಭ್+ಉ
    ಭ್+ಊ
    ದ್+ಈ
    ನ್-ಐ
    ದ್+ಏ
    ದ್+ಎ
    ದ್+ಉ
    ಜ್-ಐ
    ಜ್-ಓ
    ದ್+ಊ
    ದ್+ಅ
    ದ್+ಇ
    ದ್+ಆ
    ಜ್-ಅ
    ಜ್-ಇ
    ಜ್-ಆ
    ನ್-ಅ
    ನ್-ಇ
    ನ್-ಆ
    ನ್-ಉ
    ನ್-ಈ
    ನ್-ಊ
    ಜ್-ಉ
    ಜ್-ಈ
    ನ್-ಏ
    ನ್-ಎ
    ಲ್-ಇ
    ಲ್-ಆ
    ಲ್-ಅ
    ಯ್+ಆ
    ಯ್+ಇ
    ಯ್+ಅ
    ಲ್-ಏ
    ಲ್-ಎ
    ಯ್+ಉ
    ಸ್
    ಲ್-ಊ
    ಲ್-ಉ
    ಯ್+ಓ
    ವ್
    ಆ+ಮ್
    ಕ್-ಎ+ಮ್
    ಝ್-ಓ
    ಊ-ಮ್
    ವ್-ಒ+ಮ್
    ಗ್-ಈ
    ಗ್-ಉ
    ಗ್-ಊ
    ಜ್-ಎ
    ರ್
    ಗ್-ಎ
    ಗ್-ಏ
    ಕ್-ಒ
    ಕ್-ಓ
    ಗ್-ಅ
    ಗ್-ಆ
    ಗ್-ಇ
    ಕ್-ಊ
    ಕ್-ಋ
    ಕ್-ಈ
    ಕ್-ಉ
    ಕ್-ಎ
    ಗ್-ಒ
    ದ್+ಒ
    ಕ್-ಆ
    ಕ್-ಇ
    ಕ್-ಅ
    ಣ್
    ಳ್-ಇ+ಮ್
    ಪ್+ಔ
    ವ್-ಅ+ಮ್
    ಲ್-ಏ+ಮ್
    ಹ್+ಒ
    ಹ್+ಓ
    ಪ್-ಆ+ಮ್
    ಹ್+ಅ
    ಹ್+ಆ
    ಹ್+ಇ
    ಫ್-ಅ
    ಹ್+ಎ
    ಹ್+ಈ
    ಕ್-ಉ+ಮ್
    ರ್-ಒ
    ಯ್+ಎ
    ಕ್+ಒ
    ಕ್+ಓ
    ಯ್+ಏ
    ಕ್+ಈ
    ಕ್+ಉ
    ಕ್+ಊ
    ಕ್+ಋ
    ಕ್+ಎ
    ಕ್+ಏ
    ಕ್+ಅ
    ಕ್+ಆ
    ಕ್+ಇ
    ಷ್+ಈ
    ಷ್+ಎ
    ಮ್-ಅ
    ರ್-ಈ
    ಹ್-ಒ+ಮ್
    ಷ್+ಆ
    ಷ್+ಇ
    ಷ್+ಅ
    ಣ್-ಅ
    ಣ್-ಆ
    ಣ್-ಇ
    ಮ್-ಉ+ಮ್
    ಮ್-ಊ
    ಣ್-ಎ
    ಣ್-ಉ
    ಡ್+ಎ
    ಡ್+ಉ
    ಡ್+ಅ
    ಡ್+ಇ
    ಪ್
    ಅ-ಮ್
    ಟ್-ಉ+ಮ್
    ಪ್-ಅ+ಮ್
    ಸ್-ಔ+ಮ್
    ಮ್-ಐ
    ಸ್-ಏ
    ಮ್-ಇ
    ಮ್-ಆ
    ಯ್-ಆ
    ಯ್-ಇ
    ಯ್-ಉ
    ಮ್-ಉ
    ಮ್-ಈ
    ಮ್-ಏ
    ಮ್-ಎ
    ಯ್-ಎ
    ಯ್-ಏ
    ಮ್-ಒ
    ಯ್-ಓ
    ಮ್-ಔ
    

    无论如何,我收到的错误应该是每个语言都通用的。 究竟是什么错误? 我应该如何在HTK中实现Syllable建模?

    链接地址: http://www.djcxy.com/p/34433.html

    上一篇: How to train Syllables instead of phones using HTK?

    下一篇: What's the general state of speech recognition right now?