由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
相关主题
一个关于R的小问题问个很简单的independent的问题
提高R速度的一些tips算晕了!请教一个组合问题, 包子谢。
如何合并两个数据文件 (转载)how to interpret these regression coefficients?
SAS 如何处理 raw data请教统计专业的大侠一个统计问题!!在线等!
怎么在Centos上面安装R package?问个sql问题
关于stepwise programming贡献两道面试的概率题。
请问如何用sas求一列数据1000个数据的乘积Python:请问如何把list变成structured array。 (转载)
sas questionRe: R/S-Plus数据读入问题
相关话题的讨论汇总
话题: level话题: data话题: 数据话题: 读入话题: 每行
进入Statistics版参与讨论
1 (共1页)
k****n
发帖数: 394
1
请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
有没有什么办法
提示说memory不足分配那个vector
谢谢
m****o
发帖数: 114
2
why not process lesser lines one at a time and then merge the result? --
don't know R, just guess though

【在 k****n 的大作中提到】
: 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
: 有没有什么办法
: 提示说memory不足分配那个vector
: 谢谢

P****D
发帖数: 11146
3
Given you still plan to merge the small data frames/vectors you use to read in the data (however small they are) into a large one, the short-of-
memory problem will not go away.
LZ - hope this helps:
http://yusung.blogspot.com/2007/09/dealing-with-large-data-set-in-r.html

【在 m****o 的大作中提到】
: why not process lesser lines one at a time and then merge the result? --
: don't know R, just guess though

m****o
发帖数: 114
4
i meant merge the result not the raw data

read in the data (however small they are) into a large one, the short-of-

【在 P****D 的大作中提到】
: Given you still plan to merge the small data frames/vectors you use to read in the data (however small they are) into a large one, the short-of-
: memory problem will not go away.
: LZ - hope this helps:
: http://yusung.blogspot.com/2007/09/dealing-with-large-data-set-in-r.html

g********r
发帖数: 8017
5
scan也不行? 2亿不是很大,相当与两万乘一万的matrix.说说什么系统?R有多少内存可
用?
如果不行,看看roger peng的那个操作大数据的package.

【在 k****n 的大作中提到】
: 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
: 有没有什么办法
: 提示说memory不足分配那个vector
: 谢谢

z**k
发帖数: 378
6
用R处理2亿行的数据。。。哪有人这么做的。。。就算你读进去了,又能做什么呢。。
。楼主如果要处理Large Scale Data set,多少学一下Database的基本原理吧。。。
如果用数据库格式储存数据,R有很多Sql interface,比如RMySQL就很快;如果用文件
格式储存数据,Perl或者C++会比R快很多
c*******o
发帖数: 8869
7
在linux cluster上跑R?

【在 k****n 的大作中提到】
: 请问如何在R中读入2亿多行,每行一个0.XX的分数的文件?
: 有没有什么办法
: 提示说memory不足分配那个vector
: 谢谢

c*******o
发帖数: 8869
8
这话问的没什么道理. 为什么不能分析2亿行的数据? 难道样本大倒有错了? 我其实也
经常遇到此类问题, 几百万行的数据极其平常不过的了,desktop 上run起来极其吃力, 换到server上去不知道能改善多少 ....

【在 z**k 的大作中提到】
: 用R处理2亿行的数据。。。哪有人这么做的。。。就算你读进去了,又能做什么呢。。
: 。楼主如果要处理Large Scale Data set,多少学一下Database的基本原理吧。。。
: 如果用数据库格式储存数据,R有很多Sql interface,比如RMySQL就很快;如果用文件
: 格式储存数据,Perl或者C++会比R快很多

z**k
发帖数: 378
9
R明显不适合处理海量数据,或者说一般的统计方法遇到了海量数据库都要做相应修改
,应该没有什么人
用2亿条数据做regression吧,其实就算是全数据库的summation或者min max都很少去
统计。
处理海量数据,主要问题不在model本身,在于solver,所以我见到的人大多都会退到
High-level
programming language,像是C/C++或者Java。我并没有说样本大了有错,我只是说将
全部数据读
入memory并不是一个好的starting point。
Server的话就是赤裸裸的歧视了,我都还没有Desktop呢,平时就靠小本本process几
gigabyte的
数据,苦得我还要给小本本冰敷,若是不注意热它不爽就直接罢工了。。。

, 换到
server上去不知道能改善多少 ....

【在 c*******o 的大作中提到】
: 这话问的没什么道理. 为什么不能分析2亿行的数据? 难道样本大倒有错了? 我其实也
: 经常遇到此类问题, 几百万行的数据极其平常不过的了,desktop 上run起来极其吃力, 换到server上去不知道能改善多少 ....

b*****n
发帖数: 685
10
scan分批读应该可以。
啥叫退到High-level programming language,是不是说反了?C之类的比R低级吧。
相关主题
关于stepwise programming问个很简单的independent的问题
请问如何用sas求一列数据1000个数据的乘积算晕了!请教一个组合问题, 包子谢。
sas questionhow to interpret these regression coefficients?
进入Statistics版参与讨论
z**k
发帖数: 378
11
http://en.wikipedia.org/wiki/High-level_programming_language

【在 b*****n 的大作中提到】
: scan分批读应该可以。
: 啥叫退到High-level programming language,是不是说反了?C之类的比R低级吧。

b*****n
发帖数: 685
12
我懂什么叫高级语言,但是不懂你说的退到高级语言C,难道R不是高级语言?相比C,R
应该更高级。

【在 z**k 的大作中提到】
: http://en.wikipedia.org/wiki/High-level_programming_language
z**k
发帖数: 378
13
我是说R退到C或者Java,我都没有提到过"高级"这个两个字,我说的是high-level。。
。你要再退
远一点,到low-level也可以。。。

,R

【在 b*****n 的大作中提到】
: 我懂什么叫高级语言,但是不懂你说的退到高级语言C,难道R不是高级语言?相比C,R
: 应该更高级。

b*****n
发帖数: 685
14
懂了,原来你是认为R super high-level。
PS:很好奇难道high-level不翻译成高级?

【在 z**k 的大作中提到】
: 我是说R退到C或者Java,我都没有提到过"高级"这个两个字,我说的是high-level。。
: 。你要再退
: 远一点,到low-level也可以。。。
:
: ,R

D******n
发帖数: 2836
15
R is “higher level" than C i guess,
some ppl say C is middle-level language, because it is kinda very basic

【在 b*****n 的大作中提到】
: 懂了,原来你是认为R super high-level。
: PS:很好奇难道high-level不翻译成高级?

z**k
发帖数: 378
16
R严格说起来应该是4GL。。。
好吧,我多话了。。。这个讨论好汗。。。

【在 D******n 的大作中提到】
: R is “higher level" than C i guess,
: some ppl say C is middle-level language, because it is kinda very basic

s********0
发帖数: 2625
17
不都明白各自的意思么,吹毛求疵有意思挖?
D******n
发帖数: 2836
18
精益求精,nothing is personal

【在 s********0 的大作中提到】
: 不都明白各自的意思么,吹毛求疵有意思挖?
1 (共1页)
进入Statistics版参与讨论
相关主题
Re: R/S-Plus数据读入问题怎么在Centos上面安装R package?
[合集] Thanks so much! Re: SAS 一问. please help关于stepwise programming
[合集] 申请SAS PROGRAMMER职位,要懂哪些东西?请问如何用sas求一列数据1000个数据的乘积
[合集] SAS 读入数据的问题sas question
一个关于R的小问题问个很简单的independent的问题
提高R速度的一些tips算晕了!请教一个组合问题, 包子谢。
如何合并两个数据文件 (转载)how to interpret these regression coefficients?
SAS 如何处理 raw data请教统计专业的大侠一个统计问题!!在线等!
相关话题的讨论汇总
话题: level话题: data话题: 数据话题: 读入话题: 每行