技巧来管理R会话中的可用内存

人们用什么技巧来管理交互式R会话的可用内存? 我使用下面的函数[根据Petr Pikal和David Hinds在2004年的r-help列表中发布的帖子]列出(和/或排序)最大的对象,偶尔使用rm()其中的一些。 但到目前为止,最有效的解决方案是......在64位Linux下运行,并具有足够的内存。

任何其他好的技巧人想分享? 请发邮件一封。

# improved list of objects
.ls.objects <- function (pos = 1, pattern, order.by,
                        decreasing=FALSE, head=FALSE, n=5) {
    napply <- function(names, fn) sapply(names, function(x)
                                         fn(get(x, pos = pos)))
    names <- ls(pos = pos, pattern = pattern)
    obj.class <- napply(names, function(x) as.character(class(x))[1])
    obj.mode <- napply(names, mode)
    obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class)
    obj.size <- napply(names, object.size)
    obj.dim <- t(napply(names, function(x)
                        as.numeric(dim(x))[1:2]))
    vec <- is.na(obj.dim)[, 1] & (obj.type != "function")
    obj.dim[vec, 1] <- napply(names, length)[vec]
    out <- data.frame(obj.type, obj.size, obj.dim)
    names(out) <- c("Type", "Size", "Rows", "Columns")
    if (!missing(order.by))
        out <- out[order(out[[order.by]], decreasing=decreasing), ]
    if (head)
        out <- head(out, n)
    out
}
# shorthand
lsos <- function(..., n=10) {
    .ls.objects(..., order.by="Size", decreasing=TRUE, head=TRUE, n=n)
}

确保您使用可重复的脚本记录您的工作。 不时地重新打开R,然后输入source()你的脚本。 您将清理掉不再使用的任何内容,并且作为附加的好处将测试您的代码。


我使用data.table包。 有了它:=运算符,您可以:

  • 通过引用添加列
  • 通过引用修改现有列的子集,并按引用分组
  • 通过引用删除列
  • 这些操作都不会复制(可能很大) data.table ,甚至不会复制一次。

  • 聚合也特别快,因为data.table使用更少的工作内存。
  • 相关链接 :

  • 来自data.table的新闻,伦敦R介绍,2012
  • 什么时候应该在data.table中使用:=运算符?

  • 在推特上看到这个,并认为这是Dirk的一个很棒的功能! 继JD龙的回答之后,我会为用户友好阅读做到这一点:

    # improved list of objects
    .ls.objects <- function (pos = 1, pattern, order.by,
                            decreasing=FALSE, head=FALSE, n=5) {
        napply <- function(names, fn) sapply(names, function(x)
                                             fn(get(x, pos = pos)))
        names <- ls(pos = pos, pattern = pattern)
        obj.class <- napply(names, function(x) as.character(class(x))[1])
        obj.mode <- napply(names, mode)
        obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class)
        obj.prettysize <- napply(names, function(x) {
                               format(utils::object.size(x), units = "auto") })
        obj.size <- napply(names, object.size)
        obj.dim <- t(napply(names, function(x)
                            as.numeric(dim(x))[1:2]))
        vec <- is.na(obj.dim)[, 1] & (obj.type != "function")
        obj.dim[vec, 1] <- napply(names, length)[vec]
        out <- data.frame(obj.type, obj.size, obj.prettysize, obj.dim)
        names(out) <- c("Type", "Size", "PrettySize", "Length/Rows", "Columns")
        if (!missing(order.by))
            out <- out[order(out[[order.by]], decreasing=decreasing), ]
        if (head)
            out <- head(out, n)
        out
    }
    
    # shorthand
    lsos <- function(..., n=10) {
        .ls.objects(..., order.by="Size", decreasing=TRUE, head=TRUE, n=n)
    }
    
    lsos()
    

    其结果如下所示:

                          Type   Size PrettySize Length/Rows Columns
    pca.res                 PCA 790128   771.6 Kb          7      NA
    DF               data.frame 271040   264.7 Kb        669      50
    factor.AgeGender   factanal  12888    12.6 Kb         12      NA
    dates            data.frame   9016     8.8 Kb        669       2
    sd.                 numeric   3808     3.7 Kb         51      NA
    napply             function   2256     2.2 Kb         NA      NA
    lsos               function   1944     1.9 Kb         NA      NA
    load               loadings   1768     1.7 Kb         12       2
    ind.sup             integer    448  448 bytes        102      NA
    x                 character     96   96 bytes          1      NA
    

    注:我添加的主要部分是(再次根据JD的回答改编):

    obj.prettysize <- napply(names, function(x) {
                               print(object.size(x), units = "auto") })
    
    链接地址: http://www.djcxy.com/p/63269.html

    上一篇: Tricks to manage the available memory in an R session

    下一篇: Peak memory usage of a linux/unix process