如何训练一个语音识别系统

2018-06-12 00:07:36

我正在尝试训练lstm模型进行语音识别，但不知道要使用哪些训练数据和目标数据。我正在使用LibriSpeech数据集，它包含音频文件及其转录本。此时，我知道目标数据将是向量化的转录文本。至于训练数据，我正在考虑使用每个音频文件（或MFCC功能）的频率和时间。如果这是解决问题的正确方法，那么训练数据/音频将是多个数组，我将如何将这些数组输入到我的lstm模型中？我需要将它们矢量化吗？

谢谢！

为了准备用于馈入LSTM模型的语音数据集，您可以看到这个后期建构语音数据集，用于LSTM二进制分类以及数据准备。

作为一个很好的例子，你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。本文讨论如何使用RNN - LSTM预测Keras中的向量序列 。

我相信你会发现这个帖子（https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras）非常有帮助太。

链接地址: http://www.djcxy.com/p/34373.html

上一篇: How to train an lstm for speech recognition

下一篇: How to use System.Speech for Programmatically multilingual Speech Recognition