在R中处理巨大的模拟
我写了一个R程序,可以生成一个长度为100万的随机向量。 我需要模拟它100万次。 在100万次模拟中,我将使用50K个观察向量(以某种随机方式选择)作为样本。 所以,50K cross 1M是样本大小。 有办法在R中处理它?
有几个问题和一些不太好的解决方案。
First R不能在我的机器中存储如此巨大的矩阵。 它超过RAM内存。 我查看了像bigmemory,ffbase等使用硬盘空间的软件包。 但是如此巨大的数据可能会在TB中占据大小。 我的机器中有200GB硬盘可用。
即使可以存储,也存在运行时间的问题。 代码可能需要超过100小时的运行时间!
任何人都可以请建议出路! 谢谢
这个答案真的代表了评论和答案之间的关系。 摆脱困境的简单方法是不使用这种海量数据集。 您可能最有可能采用合理大小的代表性数据子集(例如要求不超过几百MB)并以此方式训练您的模型。
如果必须在生产中使用具有数百万观测值的实际数据集的模型,那么问题将不再与R相关。