s****e 发帖数: 1180 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: sheide (shei), 信区: Statistics
标 题: 诚心请教大data set到底该怎么分析?
发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。 | K****n 发帖数: 5970 | 2 My 2 cents..
The question is very vague... so step 1 is to ask the interviewer for more
details. Then probably show them you know how to divide the data set into
multiple blocks and process them in parallel. Consider map-reduce, but
usually it is not required.. | r********3 发帖数: 2998 | 3 跟你用什么编程语言没有关系。只跟你分析的方法有关系。
你可以读一部分,分析一部分。然后清空内存,再读下一部分的数据,再分析下一部分。
你的100M其实也不算太大。现在处理流数据的项目,每天就产生这么大的数据,你怎么
办?
【在 s****e 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: sheide (shei), 信区: Statistics : 标 题: 诚心请教大data set到底该怎么分析? : 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东) : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
|
|