由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有谁懂这个: example(data.table) ; dt.tbl> DT[X, on=.(y<=foo)]
相关主题
c的文件写入问题准备用Coffee实现一些monad
求助:关于文件夹和文件的读写问一个用R抓网上数据,抓下来的和网页不一致
a linux disk IO question (转载)大过节的,不要吵啦,推荐本函数编程的入门书吧?
一个popen加gzip的问题FP的大神,帮忙看看8行代码是如何打印出x_n的?
fwrite()有参数可以优化么?都是高手,大牛们就别争执了
fread/fwrite有big/small endian问题吗?搜索系统设计
发现自己写buffer还是能加速fwrite的another simple question
serialization 到底该怎么理解啊?大侠进来看看这个问题
相关话题的讨论汇总
话题: dt话题: foo话题: example话题: rep话题: 答案
进入Programming版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
百思不得其解。 谁懂R,来给我讲讲 结果为什么是这样?
特别对行的顺序不理解: column V, 怎么是3,6,9,2,5,8....
我觉得应该是2,3,5,6,8,9,3,6,9
m******r
发帖数: 1033
2
X = data.table(x=c("c","b"), v=8:7, foo=c(4,2))
DT = data.table(x=rep(c("b","a","c"),each=3), y=c(1,3,6), v=1:9)
dt.tbl> DT[X, on=.(y>=foo)]
答案是:
x y v i.x i.v
1: b 4 3 c 8
2: a 4 6 c 8
3: c 4 9 c 8
4: b 2 2 b 7
5: a 2 5 b 7
6: c 2 8 b 7
7: b 2 3 b 7
8: a 2 6 b 7
9: c 2 9 b 7
d******c
发帖数: 2407
3
不明白意图是什么,感觉定义不清楚。这种用法我很少用,要join就用merge。
e*******o
发帖数: 4654
4
感觉是倒退啊,符号化,往apl 发展?

【在 d******c 的大作中提到】
: 不明白意图是什么,感觉定义不清楚。这种用法我很少用,要join就用merge。
m******r
发帖数: 1033
5
咳咳,这可是最牛逼的data.table package, 堪称R处理数据的最高成就了。 其文档开
篇就号称'可一口气处理100G数据小菜一碟'。

【在 e*******o 的大作中提到】
: 感觉是倒退啊,符号化,往apl 发展?
d******c
发帖数: 2407
6
data.table 我天天用,用了一年多
追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。
基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大
小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。
读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人
家快。现在好像有些contibutor是俄罗斯的。
这个例子写的不好,不明白要干什么。

【在 m******r 的大作中提到】
: 咳咳,这可是最牛逼的data.table package, 堪称R处理数据的最高成就了。 其文档开
: 篇就号称'可一口气处理100G数据小菜一碟'。

A*****n
发帖数: 243
7
问一下现在data.table是不是有正式的fwrite了,以前一个大问题就是写文件还得用旧
方法。
去年feather刚出来的时候试过他的R包,那个读写文件都挺快的,不过貌似没有很积极
的更新。Pandas的作者好像也不跟进了。

【在 d******c 的大作中提到】
: data.table 我天天用,用了一年多
: 追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。
: 基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大
: 小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。
: 读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人
: 家快。现在好像有些contibutor是俄罗斯的。
: 这个例子写的不好,不明白要干什么。

m******r
发帖数: 1033
8
我给你查了一下。
As write.csv but much faster (e.g. 2 seconds versus 1 minute) and just as
flexible. Modern machines almost surely have more than one CPU so fwrite
uses them; on all operating systems including Linux, Mac and Windows.
This is new functionality as of Nov 2016. We may need to refine argument
names and defaults

【在 A*****n 的大作中提到】
: 问一下现在data.table是不是有正式的fwrite了,以前一个大问题就是写文件还得用旧
: 方法。
: 去年feather刚出来的时候试过他的R包,那个读写文件都挺快的,不过貌似没有很积极
: 的更新。Pandas的作者好像也不跟进了。

m******r
发帖数: 1033
9
果然是行家。 佩服佩服。
R这个东西,有什么速成的,做data analysis的可以推荐吗 ? 我自学了R半年吧,觉
得这个东西不适合做数据处理,适合处理vector, matrix或者算法之类的。 换句话说
: 如果我只是对数据操作,是不是只用dplyr, data.table, reshape2就足够了 ?
我是烦透了R/base. 文档全部是对vector, matrix操作。然后底下一堆列子,也没说明
。 这年头 谁还琢磨什么matrix啊。

【在 d******c 的大作中提到】
: data.table 我天天用,用了一年多
: 追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。
: 基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大
: 小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。
: 读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人
: 家快。现在好像有些contibutor是俄罗斯的。
: 这个例子写的不好,不明白要干什么。

1 (共1页)
进入Programming版参与讨论
相关主题
大侠进来看看这个问题fwrite()有参数可以优化么?
Looking for code example to get stock datafread/fwrite有big/small endian问题吗?
算法题, 排序(queue)发现自己写buffer还是能加速fwrite的
Is the order of initialization a, b, c or c, b, a?serialization 到底该怎么理解啊?
c的文件写入问题准备用Coffee实现一些monad
求助:关于文件夹和文件的读写问一个用R抓网上数据,抓下来的和网页不一致
a linux disk IO question (转载)大过节的,不要吵啦,推荐本函数编程的入门书吧?
一个popen加gzip的问题FP的大神,帮忙看看8行代码是如何打印出x_n的?
相关话题的讨论汇总
话题: dt话题: foo话题: example话题: rep话题: 答案