如何训练音节而不是使用HTK的手机?
我正在尝试使用隐马尔可夫模型工具包(HTK)开发语音到文本转换系统。 有几种可能的方法来模拟用于单词识别的HMM:
HTK手册和HTK上的VoxForge教程为我们提供了如何为每个单音或三音模拟HMM的分步说明。 我已经为印度Langauge(卡纳达)成功实施了这项工作。 但是,这两个源都告诉我们如何使用基于Syllable的HMM建模来实现相同的功能。
根据一篇关于使用依赖于上下文的音节的ASR的论文:
HTK和LASER都不直接支持使用音节来实现转换算法。 这仅将单音ASR的配置文件转换为音节ASR的格式。
他们说我们需要修改配置文件以适应音节而不是单音。 遵循VoxForge教程中的10个步骤,配置文件如下所示:
config,wav_config:指定用于从训练wav文件生成特征向量的配置参数
sample.jconf:使用julius进行语音识别的配置。
但是,以任何方式更改这些文件都无助于识别音节。
相反,我执行了类似于基于手机建模的步骤,即创建一个单音发音字典和HMM训练,共9轮。 这相当于voxforge教程的前8个步骤。 然而,在三音模型的情况下,我不是为每个单词创建三音素,而是将每个单词分割成音节并从每个音节创建三音素(和双音素)。 您可能无法阅读这种语言的卡纳达语,但我会显示一些样本,以便您可以看到我正在处理的内容。
在triphone建模时,我只是为普通的triphones建模,我的triphone词典dict-tri
是以下(完美工作):
ಅತಿ ಅ+ತ್ ಅ-ತ್+ಇ ತ್-ಇ sp
ಅದರ ಅ+ದ್ ಅ-ದ್+ಅ ದ್-ಅ+ರ್ ಅ-ರ್+ಅ ರ್-ಅ sp
ಅದು ಅ+ದ್ ಅ-ದ್+ಉ ದ್-ಉ sp
在将单词分解为音节并将每个音节转换为单音,双音和三音的新方法中,同一个词典就像:
ಅತಿ ಅ ತ್+ಇ ತ್-ಇ sp
ಅದರ ಅ ದ್+ಅ ದ್-ಅ ರ್+ಅ ರ್-ಅ sp
ಅದು ಅ ದ್+ಉ ದ್-ಉ sp
尽管您可能无法阅读该语言,但应该清楚,我的目标是显着减少HMM模型的数量。 然而,在运行julius时,我得到了以下错误:
STAT: include config: sample.jconf
STAT: jconf successfully finalized
STAT: *** loading AM00 _default
Stat: init_phmm: Reading in HMM definition
Stat: rdhmmdef: ascii format HMM definition
Stat: rdhmmdef: limit check passed
Stat: check_hmm_restriction: an HMM with several arcs from initial state found: "sp"
Stat: rdhmmdef: this HMM requires multipath handling at decoding
Stat: rdhmmdef: no <SID> embedded
Stat: rdhmmdef: assign SID by the order of appearance
Stat: init_phmm: defined HMMs: 200
Stat: init_phmm: loading ascii hmmlist
Stat: init_phmm: logical names: 562 in HMMList
Stat: init_phmm: base phones: 48 used in logical
Stat: init_phmm: finished reading HMM definitions
STAT: making pseudo bi/mono-phone for IW-triphone
Stat: hmm_lookup: 5 pseudo phones are added to logical HMM list
STAT: *** AM00 _default loaded
STAT: *** loading LM00 _default
STAT: reading [sample.dfa] and [sample.dict]...
Error: voca_load_htkdict: line 3: triphone "*-ಅ+ತ್" or biphone "ಅ+ತ್" not found
Error: voca_load_htkdict: line 3: triphone "ಅ-ತ್+ಇ" not found
Error: voca_load_htkdict: the line content was: 2 [ಅತಿ] ಅ ತ್ ಇ
Error: voca_load_htkdict: line 4: triphone "*-ಅ+ತ್" or biphone "ಅ+ತ್" not found
Error: voca_load_htkdict: line 4: triphone "ಅ-ತ್+ಯ್" not found
Error: voca_load_htkdict: line 4: triphone "ತ್-ಯ್+ಅ" not found
Error: voca_load_htkdict: line 4: triphone "ಯ್-ಅ+ದ್" not found
Error: voca_load_htkdict: line 4: triphone "ಅ-ದ್+ಭ್" not found
Error: voca_load_htkdict: line 4: triphone "ದ್-ಭ್+ಉ" not found
Error: voca_load_htkdict: line 4: triphone "ಭ್-ಉ+ತ್" not found
Error: voca_load_htkdict: line 4: triphone "ಉ-ತ್+ಅ" not found
Error: voca_load_htkdict: the line content was: 2 [ಅತ್ಯದ್ಭುತ] ಅ ತ್ ಯ್ ಅ ದ್ ಭ್ ಉ ತ್ ಅ
Error: voca_load_htkdict: line 5: triphone "*-ಅ+ಥ್" or biphone "ಅ+ಥ್" not found
Error: voca_load_htkdict: line 5: triphone "ಅ-ಥ್+ಅ" not found
Error: voca_load_htkdict: line 5: triphone "ಥ್-ಅ+ವ್" not found
Error: voca_load_htkdict: line 5: triphone "ಅ-ವ್+ಆ" not found
.
.
.
(over 200 more lines of the same)
.
.
Error: voca_load_htkdict: ಹ್-ಒ+ಯ್
Error: voca_load_htkdict: ಹ್-ಒ+ರ್
Error: voca_load_htkdict: ಹ್-ಒ+ಳ್
Error: voca_load_htkdict: ಹ್-ಓ+ಗ್
Error: voca_load_htkdict: ಹ್-ಓ+ರ್
Error: voca_load_htkdict: ಹ್-ಯ್+ಅ
Error: voca_load_htkdict: ಹ್-ಯ್+ಆ
Error: voca_load_htkdict: end missing phones
Error: init_voca: error in reading sample.dict: 748 words failed out of 7 words
ERROR: failed to read dictionary "sample.dict"
ERROR: m_fusion: some error occured in reading grammars
ERROR: Error in loading model
我究竟做了什么错误? 从它的外观来看,错误状态表明我已经喂养了尚未建模的triphones。 但是显示的所有Error
都是我甚至没有使用过的triphones。 作为参考,以下是用于创建音节的所有单声道,双声道和三声道电话列表(triphones1替换):
ಲ್-ಅ+ಮ್
ತ್-ಇ+ಮ್
ಘ್-ಅ+ಮ್
ನ್-ಊ+ಮ್
ಛ್-ಈ
ಛ್-ಅ
ಛ್-ಆ
ಛ್-ಇ
ಭ್-ಆ
ಭ್-ಇ
ಭ್-ಅ
ಭ್-ಊ
ಭ್-ಈ
ಭ್-ಉ
ಕ್-ಒ+ಮ್
ಭ್-ಏ
ಬ್+ಓ
ಬ್+ಒ
ಞ್+ಆ
ಬ್-ಅ+ಮ್
ಬ್+ಔ
ಬ್+ಇ
ಬ್+ಆ
ಬ್+ಅ
ಬ್+ಉ
ಬ್+ಈ
ಬ್+ಏ
ಬ್+ಎ
ರ್-ಒ+ಮ್
ತ್+ಊ
ತ್+ಉ
ಲ್-ಆ+ಮ್
ತ್+ಏ
ತ್+ಎ
ತ್+ಇ
ತ್+ಆ
ತ್+ಅ
ತ್+ಐ
ಕ್-ಇ+ಮ್
ಹ್-ಒ
ಹ್-ಓ
ಹ್-ಎ
ಹ್-ಈ
ಹ್-ಉ
ಹ್-ಆ
ಹ್-ಇ
ಖ್-ಅ+ಮ್
ಹ್-ಅ
ವ್-ಒ
ವ್-ಐ
ಖ್+ಊ
ಖ್
ವ್-ಉ
ವ್-ಎ
ವ್-ಏ
ಢ್+ಇ
ಢ್+ಆ
ವ್-ಆ
ವ್-ಇ
ವ್-ಅ
ಕ್-ಆ+ಮ್
ಹ್-ಅ+ಮ್
ಠ್-ಈ
ಠ್-ಏ
ಠ್-ಅ
ಳ್-ಎ+ಮ್
ಸ್-ಎ+ಮ್
ಸ್-ಅ
ಸ್-ಇ
ಸ್-ಆ
ಸ್-ಉ
ಸ್-ಈ
ದ್-ಅ+ಮ್
ಸ್-ಊ
ಶ್-ಇ
ಶ್-ಆ
ಶ್-ಅ
ಸ್-ಎ
ಸ್-ಐ
ಸ್-ಓ
ಸ್-ಒ
ಸ್-ಔ
ಗ್-ಅ+ಮ್
ಡ್-ಉ
ಶ್+ಅ
ಶ್+ಇ
ಶ್+ಆ
ಡ್-ಇ
ದ್
ಡ್-ಅ
ಡ್-ಎ
ಪ್-ಔ
ಪ್-ಓ
ಪ್-ಐ
ಧ್+ಊ
ಪ್-ಎ
ಧ್+ಈ
ಧ್+ಉ
ಪ್-ಊ
ಪ್-ಉ
ಪ್-ಇ
ಪ್-ಆ
ಪ್-ಅ
ಯ್-ಅ
ನ್
ಧ್+ಇ
ಧ್+ಅ
ಜ್
ಧ್+ಆ
ಷ್-ಈ
ತ್-ಅ+ಮ್
ಷ್-ಏ
ಷ್-ಅ
ಷ್-ಆ
ಷ್-ಇ
ಛ್+ಇ
sp
ಹ್
ಞ್-ಆ
ಥ್-ಈ
ಥ್-ಎ
ಥ್-ಏ
ಥ್-ಆ
ಥ್-ಇ
ಥ್-ಅ
ಚ್
ಯ್
ಮ್
ಟ್
ಳ್+ಎ
ಜ್+ಇ
ಜ್+ಆ
ಜ್+ಅ
ಳ್+ಉ
ಳ್+ಆ
ಳ್+ಇ
ಜ್+ಉ
ಳ್+ಅ
ಜ್+ಎ
ಖ್+ಐ
ಜ್+ಓ
ಜ್+ಐ
ಊ+ಮ್
ಳ್
ಶ್
ರ್-ಎ+ಮ್
ರ್-ಓ
ಆ-ಮ್
ರ್-ಉ
ಗ್+ಒ
ರ್-ಊ
ರ್-ಏ
ರ್-ಎ
ರ್-ಅ
ಟ್-ಊ
ರ್-ಇ
ರ್-ಆ
ಚ್+ಉ
ಚ್+ಈ
ಟ್-ಋ
ಬ್-ಎ+ಮ್
ಚ್+ಎ
ಚ್+ಅ
ಚ್+ಇ
ಚ್+ಆ
ದ್-ಒ+ಮ್
ನ್+ಓ
ನ್+ಒ
ನ್+ಐ
ನ್+ಇ
ನ್+ಆ
ನ್+ಅ
ಗ್-ಒ+ಮ್
ನ್+ಏ
ನ್+ಎ
ನ್+ಊ
ನ್+ಉ
ನ್+ಈ
ತ್-ಉ+ಮ್
ಧ್-ಈ
ಧ್-ಉ
ಧ್-ಊ
ಟ್+ಆ
ಟ್+ಇ
ಟ್+ಅ
ಟ್+ಊ
ಟ್+ಋ
ಟ್+ಈ
ಟ್+ಉ
ಧ್-ಅ
ಧ್-ಆ
ಧ್-ಇ
ಗ್+ಊ
ಚ್-ಎ
ಗ್+ಈ
ಗ್+ಉ
ಗ್+ಎ
ಗ್+ಏ
ಚ್-ಉ
ಚ್-ಈ
ಚ್-ಇ
ಚ್-ಆ
ಚ್-ಅ
ಗ್+ಆ
ಗ್+ಇ
ಖ್+ಓ
ಗ್+ಅ
ಖ್+ಏ
ತ್+ಈ
ಖ್+ಉ
ಟ್-ಅ
ಟ್-ಆ
ಟ್-ಇ
ಖ್+ಅ
ಟ್-ಉ
ಖ್+ಇ
ಖ್+ಆ
ನ್-ಅ+ಮ್
ಬ್-ಔ
ವ್+ಐ
ವ್+ಒ
ಒ-ಮ್
ಫ್-ಎ
ಸ್-ಅ+ಮ್
ವ್+ಉ
ವ್+ಎ
ವ್+ಏ
ವ್+ಅ
ವ್+ಆ
ಯ್-ಅ+ಮ್
ಹ್+ಉ
ಕ್-ಅ+ಮ್
ದ್-ಇ+ಮ್
ವ್+ಇ
ಖ್-ಇ
ಡ್-ಅ+ಮ್
ಥ್+ಅ
ಖ್-ಅ
ಸ್+ಇ
ಸ್+ಆ
ಸ್+ಅ
ಫ್+ಅ
ರ್+ಎ
ಫ್+ಎ
ಸ್+ಎ
ಎ+ಮ್
ಸ್+ಉ
ಸ್+ಈ
ಖ್-ಆ
ಸ್+ಔ
ಸ್+ಓ
ಸ್+ಒ
ಸ್+ಐ
ಗ್-ಆ+ಮ್
ಖ್-ಓ
ದ್+ಋ
ಠ್+ಏ
ಠ್+ಈ
ಠ್+ಅ
ಣ್+ಎ
ಣ್+ಉ
ಣ್+ಆ
ಣ್+ಇ
ಣ್+ಅ
ಏ-ಮ್
ಲ್+ಅ
ಲ್+ಇ
ಲ್+ಆ
ಲ್+ಉ
ರ್-ಇ+ಮ್
ಲ್+ಊ
ಲ್+ಏ
ಲ್+ಎ
ನ್-ಇ+ಮ್
ಬ್-ಅ
ಬ್-ಇ
ಬ್-ಆ
ಬ್-ಏ
ಬ್-ಎ
ಬ್-ಉ
ಬ್-ಈ
ಛ್+ಆ
ರ್-ಆ+ಮ್
ಛ್+ಅ
ಧ್
ಬ್-ಓ
ಬ್-ಒ
ರ್-ಅ+ಮ್
ಕ್-ಏ+ಮ್
ಛ್+ಈ
ಷ್+ಏ
ದ್-ಒ
ದ್-ಋ
ದ್-ಊ
ದ್-ಉ
ದ್-ಈ
ದ್-ಏ
ದ್-ಎ
ದ್-ಇ
ದ್-ಆ
ದ್-ಅ
ಗ್
ತ್-ಐ
ತ್-ಏ
ತ್-ಎ
ತ್-ಉ
ತ್-ಈ
ತ್-ಊ
ತ್-ಅ
ತ್-ಇ
ತ್-ಆ
ಝ್+ಓ
ಯ್-ಆ+ಮ್
ಘ್-ಅ
ಘ್-ಆ
ತ್-ಎ+ಮ್
ಘ್-ಓ
ಢ್+ಅ
ಛ್-ಅ+ಮ್
ಮ್+ಔ
ಸ್-ಇ+ಮ್
ಮ್+ಐ
ಮ್+ಒ
ಮ್+ಅ
ಮ್+ಇ
ಮ್+ಆ
ಮ್+ಏ
ಮ್+ಎ
ಮ್+ಉ
ಮ್+ಈ
ಮ್+ಊ
ಪ್+ಐ
ಪ್+ಓ
ಇ-ಮ್
ನ್-ಒ+ಮ್
ಪ್+ಉ
ಪ್+ಊ
ಪ್+ಎ
ಪ್+ಅ
ಪ್+ಇ
ಪ್+ಆ
ಘ್+ಆ
ಘ್+ಅ
ಮ್-ಅ+ಮ್
ಇ+ಮ್
ಘ್+ಓ
ಒ+ಮ್
ಔ-ಮ್
ಪ್-ಉ+ಮ್
ಬ್
ಳ್+ಊ
ಭ್+ಏ
ಡ್
ಬ್-ಇ+ಮ್
ಟ್-ಈ
ಢ್-ಇ
ಢ್-ಆ
ಢ್-ಅ
ಯ್-ಇ+ಮ್
ಜ್+ಈ
ಷ್-ಎ
ಫ್
ತ್-ಊ+ಮ್
ಥ್+ಈ
ಖ್-ಊ
ಖ್-ಉ
ಖ್-ಏ
ಥ್+ಎ
ಥ್+ಏ
ರ್+ಓ
ರ್+ಒ
ಥ್+ಆ
ಥ್+ಇ
ರ್+ಏ
ನ್-ಎ+ಮ್
ಕ್
ರ್+ಊ
ರ್+ಉ
ರ್+ಈ
ರ್+ಇ
ರ್+ಆ
ರ್+ಅ
ಖ್-ಐ
ಳ್-ಅ
ಳ್-ಆ
ಳ್-ಇ
ಲ್-ಇ+ಮ್
ಳ್-ಎ
ಹ್-ಇ+ಮ್
ಳ್-ಉ
ಳ್-ಊ
ಸ್+ಊ
ಭ್+ಈ
ಲ್
ಔ
ಐ
ಓ
ಒ
ಎ-ಮ್
ಅ
ಇ
ಆ
ಉ-ಮ್
ಸ್+ಏ
ಏ
ಎ
ಉ
ಈ
ಋ
ಊ
ಷ್
ನ್-ಓ
ನ್-ಒ
ಭ್+ಅ
ಭ್+ಆ
ಭ್+ಇ
ತ್
ಭ್+ಉ
ಭ್+ಊ
ದ್+ಈ
ನ್-ಐ
ದ್+ಏ
ದ್+ಎ
ದ್+ಉ
ಜ್-ಐ
ಜ್-ಓ
ದ್+ಊ
ದ್+ಅ
ದ್+ಇ
ದ್+ಆ
ಜ್-ಅ
ಜ್-ಇ
ಜ್-ಆ
ನ್-ಅ
ನ್-ಇ
ನ್-ಆ
ನ್-ಉ
ನ್-ಈ
ನ್-ಊ
ಜ್-ಉ
ಜ್-ಈ
ನ್-ಏ
ನ್-ಎ
ಲ್-ಇ
ಲ್-ಆ
ಲ್-ಅ
ಯ್+ಆ
ಯ್+ಇ
ಯ್+ಅ
ಲ್-ಏ
ಲ್-ಎ
ಯ್+ಉ
ಸ್
ಲ್-ಊ
ಲ್-ಉ
ಯ್+ಓ
ವ್
ಆ+ಮ್
ಕ್-ಎ+ಮ್
ಝ್-ಓ
ಊ-ಮ್
ವ್-ಒ+ಮ್
ಗ್-ಈ
ಗ್-ಉ
ಗ್-ಊ
ಜ್-ಎ
ರ್
ಗ್-ಎ
ಗ್-ಏ
ಕ್-ಒ
ಕ್-ಓ
ಗ್-ಅ
ಗ್-ಆ
ಗ್-ಇ
ಕ್-ಊ
ಕ್-ಋ
ಕ್-ಈ
ಕ್-ಉ
ಕ್-ಎ
ಗ್-ಒ
ದ್+ಒ
ಕ್-ಆ
ಕ್-ಇ
ಕ್-ಅ
ಣ್
ಳ್-ಇ+ಮ್
ಪ್+ಔ
ವ್-ಅ+ಮ್
ಲ್-ಏ+ಮ್
ಹ್+ಒ
ಹ್+ಓ
ಪ್-ಆ+ಮ್
ಹ್+ಅ
ಹ್+ಆ
ಹ್+ಇ
ಫ್-ಅ
ಹ್+ಎ
ಹ್+ಈ
ಕ್-ಉ+ಮ್
ರ್-ಒ
ಯ್+ಎ
ಕ್+ಒ
ಕ್+ಓ
ಯ್+ಏ
ಕ್+ಈ
ಕ್+ಉ
ಕ್+ಊ
ಕ್+ಋ
ಕ್+ಎ
ಕ್+ಏ
ಕ್+ಅ
ಕ್+ಆ
ಕ್+ಇ
ಷ್+ಈ
ಷ್+ಎ
ಮ್-ಅ
ರ್-ಈ
ಹ್-ಒ+ಮ್
ಷ್+ಆ
ಷ್+ಇ
ಷ್+ಅ
ಣ್-ಅ
ಣ್-ಆ
ಣ್-ಇ
ಮ್-ಉ+ಮ್
ಮ್-ಊ
ಣ್-ಎ
ಣ್-ಉ
ಡ್+ಎ
ಡ್+ಉ
ಡ್+ಅ
ಡ್+ಇ
ಪ್
ಅ-ಮ್
ಟ್-ಉ+ಮ್
ಪ್-ಅ+ಮ್
ಸ್-ಔ+ಮ್
ಮ್-ಐ
ಸ್-ಏ
ಮ್-ಇ
ಮ್-ಆ
ಯ್-ಆ
ಯ್-ಇ
ಯ್-ಉ
ಮ್-ಉ
ಮ್-ಈ
ಮ್-ಏ
ಮ್-ಎ
ಯ್-ಎ
ಯ್-ಏ
ಮ್-ಒ
ಯ್-ಓ
ಮ್-ಔ
无论如何,我收到的错误应该是每个语言都通用的。 究竟是什么错误? 我应该如何在HTK中实现Syllable建模?
链接地址: http://www.djcxy.com/p/34433.html上一篇: How to train Syllables instead of phones using HTK?
下一篇: What's the general state of speech recognition right now?