k****n 发帖数: 394 | 1 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
有没有什么办法
提示说memory不足分配那个vector
谢谢 |
m****o 发帖数: 114 | 2 why not process lesser lines one at a time and then merge the result? --
don't know R, just guess though
【在 k****n 的大作中提到】 : 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件? : 有没有什么办法 : 提示说memory不足分配那个vector : 谢谢
|
P****D 发帖数: 11146 | 3 Given you still plan to merge the small data frames/vectors you use to read in the data (however small they are) into a large one, the short-of-
memory problem will not go away.
LZ - hope this helps:
http://yusung.blogspot.com/2007/09/dealing-with-large-data-set-in-r.html
【在 m****o 的大作中提到】 : why not process lesser lines one at a time and then merge the result? -- : don't know R, just guess though
|
m****o 发帖数: 114 | 4 i meant merge the result not the raw data
read in the data (however small they are) into a large one, the short-of-
【在 P****D 的大作中提到】 : Given you still plan to merge the small data frames/vectors you use to read in the data (however small they are) into a large one, the short-of- : memory problem will not go away. : LZ - hope this helps: : http://yusung.blogspot.com/2007/09/dealing-with-large-data-set-in-r.html
|
g********r 发帖数: 8017 | 5 scan也不行? 2亿不是很大,相当与两万乘一万的matrix.说说什么系统?R有多少内存可
用?
如果不行,看看roger peng的那个操作大数据的package.
【在 k****n 的大作中提到】 : 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件? : 有没有什么办法 : 提示说memory不足分配那个vector : 谢谢
|
z**k 发帖数: 378 | 6 用R处理2亿行的数据。。。哪有人这么做的。。。就算你读进去了,又能做什么呢。。
。楼主如果要处理Large Scale Data set,多少学一下Database的基本原理吧。。。
如果用数据库格式储存数据,R有很多Sql interface,比如RMySQL就很快;如果用文件
格式储存数据,Perl或者C++会比R快很多 |
c*******o 发帖数: 8869 | 7 在linux cluster上跑R?
【在 k****n 的大作中提到】 : 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件? : 有没有什么办法 : 提示说memory不足分配那个vector : 谢谢
|
c*******o 发帖数: 8869 | 8 这话问的没什么道理. 为什么不能分析2亿行的数据? 难道样本大倒有错了? 我其实也
经常遇到此类问题, 几百万行的数据极其平常不过的了,desktop 上run起来极其吃力, 换到server上去不知道能改善多少 ....
【在 z**k 的大作中提到】 : 用R处理2亿行的数据。。。哪有人这么做的。。。就算你读进去了,又能做什么呢。。 : 。楼主如果要处理Large Scale Data set,多少学一下Database的基本原理吧。。。 : 如果用数据库格式储存数据,R有很多Sql interface,比如RMySQL就很快;如果用文件 : 格式储存数据,Perl或者C++会比R快很多
|
z**k 发帖数: 378 | 9 R明显不适合处理海量数据,或者说一般的统计方法遇到了海量数据库都要做相应修改
,应该没有什么人
用2亿条数据做regression吧,其实就算是全数据库的summation或者min max都很少去
统计。
处理海量数据,主要问题不在model本身,在于solver,所以我见到的人大多都会退到
High-level
programming language,像是C/C++或者Java。我并没有说样本大了有错,我只是说将
全部数据读
入memory并不是一个好的starting point。
Server的话就是赤裸裸的歧视了,我都还没有Desktop呢,平时就靠小本本process几
gigabyte的
数据,苦得我还要给小本本冰敷,若是不注意热它不爽就直接罢工了。。。
, 换到
server上去不知道能改善多少 ....
【在 c*******o 的大作中提到】 : 这话问的没什么道理. 为什么不能分析2亿行的数据? 难道样本大倒有错了? 我其实也 : 经常遇到此类问题, 几百万行的数据极其平常不过的了,desktop 上run起来极其吃力, 换到server上去不知道能改善多少 ....
|
b*****n 发帖数: 685 | 10 scan分批读应该可以。
啥叫退到High-level programming language,是不是说反了?C之类的比R低级吧。 |
|
|
z**k 发帖数: 378 | 11 http://en.wikipedia.org/wiki/High-level_programming_language
【在 b*****n 的大作中提到】 : scan分批读应该可以。 : 啥叫退到High-level programming language,是不是说反了?C之类的比R低级吧。
|
b*****n 发帖数: 685 | 12 我懂什么叫高级语言,但是不懂你说的退到高级语言C,难道R不是高级语言?相比C,R
应该更高级。
【在 z**k 的大作中提到】 : http://en.wikipedia.org/wiki/High-level_programming_language
|
z**k 发帖数: 378 | 13 我是说R退到C或者Java,我都没有提到过"高级"这个两个字,我说的是high-level。。
。你要再退
远一点,到low-level也可以。。。
,R
【在 b*****n 的大作中提到】 : 我懂什么叫高级语言,但是不懂你说的退到高级语言C,难道R不是高级语言?相比C,R : 应该更高级。
|
b*****n 发帖数: 685 | 14 懂了,原来你是认为R super high-level。
PS:很好奇难道high-level不翻译成高级?
【在 z**k 的大作中提到】 : 我是说R退到C或者Java,我都没有提到过"高级"这个两个字,我说的是high-level。。 : 。你要再退 : 远一点,到low-level也可以。。。 : : ,R
|
D******n 发帖数: 2836 | 15 R is “higher level" than C i guess,
some ppl say C is middle-level language, because it is kinda very basic
【在 b*****n 的大作中提到】 : 懂了,原来你是认为R super high-level。 : PS:很好奇难道high-level不翻译成高级?
|
z**k 发帖数: 378 | 16 R严格说起来应该是4GL。。。
好吧,我多话了。。。这个讨论好汗。。。
【在 D******n 的大作中提到】 : R is “higher level" than C i guess, : some ppl say C is middle-level language, because it is kinda very basic
|
s********0 发帖数: 2625 | |
D******n 发帖数: 2836 | 18 精益求精,nothing is personal
【在 s********0 的大作中提到】 : 不都明白各自的意思么,吹毛求疵有意思挖?
|