有没有什么方法可以像HDF5之类的磁盘数据来训练sklearn模型?
在我的问题中,我有非常大的数据集,这是我的记忆。 我想通过使用像HDF5之类的磁盘数据来训练我的模型。 sklearn支持这个还是有其他的选择吗?
你要求的是被称为核外或流媒体学习。 只有用scikit-learn模型的一个子集来实现partial_fit
方法才能进行增量拟合。
文档中有一个例子。 没有特别适用于HDF5中的数据模型,但可以调整此示例以从任何外部数据源(例如本地磁盘上的HDF5数据或网络上的数据库中获取数据,例如使用pandas SQL适配器)。
链接地址: http://www.djcxy.com/p/85385.html上一篇: Is there any way to train a sklearn model by disk data like HDF5 or such ?