如何构建从data.table到magrittr并返回到data.table的管道
我想将data.table流水线与magrittr流水线混合。 我可以从data.table去%>%,但我不知道如何回到[] [] data.table样式流水线。
这是一个例子:
> tbl = data.table(grp=c(1,1,1,2,2,2,3,3,3,4,4), y=rnorm(11))
> tbl
grp y
1: 1 0.08150
2: 1 1.51330
3: 1 -0.26154
4: 2 -0.12746
5: 2 0.10747
6: 2 0.16502
7: 3 0.54139
8: 3 -0.04194
9: 3 0.02373
10: 4 2.00756
11: 4 1.05523
> tbl[, .(.N, mean(y)), by=grp][order(-N)] %>% head(n=3) %>% .[, N := NULL]
grp V2
1: 1 0.44442
2: 2 0.04834
3: 3 0.17439
> tbl[, .(.N, mean(y)), by=grp][order(-N)] %>% head(n=3) %>% .[, N := NULL][, plot(grp, V2)]
Error in `[.data.table`(., .[, `:=`(N, NULL)], , plot(grp, V2)) :
'by' or 'keyby' is supplied but not j
Calls: %>% ... freduce -> withVisible -> <Anonymous> -> [ -> [.data.table
>
如何在%>%后回到[] []?
我知道这个特殊的例子可以用[]和no%>%完全重写,但我并不是每次都这么做。 我想要一种能够编写[] []%>%[] []模式的方法。
你可以做
`tbl %>% filter(y>0) %>% data.table()`
将流水线结果转换为data.table
,例如,用data.table
方式很好地打印结果。 但是,不幸的是,你不能做类似的事情
`tbl %>% filter(y>0) %>% data.table() [, mean(y), by=group]
我想知道,如果这个功能可以添加到未来的data.table版本 - 可能是通过新的语法(克服优先顺序限制,因为“[”在“<”之前执行)。
前面的答案都忽略了你在某种程度上指定优先级的能力。 您可以通过将代码的%>%
部分的优先级放在{}
s中来优先执行:
x <- data.frame(a=1:5, b=6:10)
{x %>% subset(a<4) %>% data.table()}[, mean(b)]
不漂亮,但它的工作原理:
> {x %>% subset(a<4) %>% data.table()} [, mean(b)]
[1] 7
你不能。 [
比%any%
具有更高的优先级,所以它总是首先被评估。
上一篇: How to build a pipeline from data.table to magrittr and back to data.table