如何收集和准备用于语音识别的数据?
据我所知,大多数语音识别实现都依赖于包含他们试图“识别”的语言声学模型的二进制文件。
那么人们如何编译这些模型呢?
人们可以手动转录大量演讲,但这需要很长时间。 即使这样,当给定一个包含一些语音的音频文件并在文本文件中将其完整转录时,单独的单词发音仍然需要以某种方式分开。 为了匹配音频的哪些部分对应于文本,仍然需要语音识别。
这是如何聚集的? 如果有人交出数千小时的音频文件及其全部副本(无需手动抄录的问题),那么如何以合适的间隔将音频拆分为一个词结束而另一个词开始? 产生这些声学模型的软件是不是必须能够进行语音识别?
那么人们如何编译这些模型呢?
您可以通过CMUSphinx声学模型培训教程了解过程
人们可以手动转录大量演讲,但这需要很长时间。
这是正确的,模型准备需要很长时间。 讲话是手动转录的。 你也可以采用已转录的演讲,如带有字幕的电影或转录讲座或有声读物,并将其用于培训。
即使这样,当给定一个包含一些语音的音频文件并在文本文件中将其完整转录时,单独的单词发音仍然需要以某种方式分开。 为了匹配音频的哪些部分对应于文本,仍然需要语音识别。
你需要在5-20秒长的句子上分开发言,而不是用单词。 语音识别训练可以从称为话语的句子学习模型,它可以自动分词。 这种分割是以无监督的方式完成的,本质上它是一种聚类,所以它不需要系统识别语音,它只是检测句子中类似结构的块,并将它们分配给手机。 这使得语言训练方式比单独训练更容易。
这是如何聚集的? 如果有人交出数千小时的音频文件及其全部副本(无需手动抄录的问题),那么如何以合适的间隔将音频拆分为一个词结束而另一个词开始? 产生这些声学模型的软件是不是必须能够进行语音识别?
您需要从一些大小为50-100小时的手动录制的录制数据库初始化系统。 你可以在这里阅读关于例子。 对于许多流行的语言,如英语,法语,德语,俄罗斯这样的数据库已经存在。 对于一些他们正在专用资源中进行。
一旦你有了初始数据库,你可以拍摄一大组视频并使用现有的模型进行分割。 这有助于创建数千小时的数据库。 例如,这样的数据库是从特德会谈培训的,你可以在这里阅读。
链接地址: http://www.djcxy.com/p/34367.html上一篇: How is the data used for speech recognition collected and prepared?