如何训练一个语音识别系统

我正在尝试训练lstm模型进行语音识别,但不知道要使用哪些训练数据和目标数据。 我正在使用LibriSpeech数据集,它包含音频文件及其转录本。 此时,我知道目标数据将是向量化的转录文本。 至于训练数据,我正在考虑使用每个音频文件(或MFCC功能)的频率和时间。 如果这是解决问题的正确方法,那么训练数据/音频将是多个数组,我将如何将这些数组输入到我的lstm模型中? 我需要将它们矢量化吗?

谢谢!


为了准备用于馈入LSTM模型的语音数据集,您可以看到这个后期建构语音数据集,用于LSTM二进制分类以及数据准备。

作为一个很好的例子,你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。 本文讨论如何使用RNN - LSTM预测Keras中的向量序列

我相信你会发现这个帖子(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)非常有帮助太。

链接地址: http://www.djcxy.com/p/34373.html

上一篇: How to train an lstm for speech recognition

下一篇: How to use System.Speech for Programmatically multilingual Speech Recognition