由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 诚心请教大data set到底该怎么分析? (转载)
相关主题
新手请教如何抓blog data的问题software engineer的长期工资增长趋势? (转载)
大家在linux下面都用什么editor啊?who know this niu ren
请教几个image feature detection的问题看来同志们对Anders Hijlberg都不了解啊
请教“期望协方差”expected covariance的定义[转载] Re: emacs 还是比较麻烦
求助Kernel PCA的matlab code[转载] 没有auto indent 了?
请教GRE-sub-CS请教一个distribution之间的likelihood问题 (转载)
那种语言上手快?c or java诚心求助:如何保存未填完PDF表格? (转载)
C语言教材求推荐什么是processor pack 5 for MMX, 在哪儿下载?
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底
进入CS版参与讨论
1 (共1页)
s****e
发帖数: 1180
1
【 以下文字转载自 Statistics 讨论区 】
发信人: sheide (shei), 信区: Statistics
标 题: 诚心请教大data set到底该怎么分析?
发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。
K****n
发帖数: 5970
2
My 2 cents..
The question is very vague... so step 1 is to ask the interviewer for more
details. Then probably show them you know how to divide the data set into
multiple blocks and process them in parallel. Consider map-reduce, but
usually it is not required..
r********3
发帖数: 2998
3
跟你用什么编程语言没有关系。只跟你分析的方法有关系。
你可以读一部分,分析一部分。然后清空内存,再读下一部分的数据,再分析下一部分。
你的100M其实也不算太大。现在处理流数据的项目,每天就产生这么大的数据,你怎么
办?

【在 s****e 的大作中提到】
: 【 以下文字转载自 Statistics 讨论区 】
: 发信人: sheide (shei), 信区: Statistics
: 标 题: 诚心请教大data set到底该怎么分析?
: 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
: 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
: 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
: R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
: 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
: project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
: 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用

1 (共1页)
进入CS版参与讨论
相关主题
什么是processor pack 5 for MMX, 在哪儿下载?求助Kernel PCA的matlab code
大家推荐一个Java的编程环境吧 (转载)请教GRE-sub-CS
[新手弱问]练习C++为啥要在linux下?那种语言上手快?c or java
批评微软已经成了时尚了C语言教材求推荐
新手请教如何抓blog data的问题software engineer的长期工资增长趋势? (转载)
大家在linux下面都用什么editor啊?who know this niu ren
请教几个image feature detection的问题看来同志们对Anders Hijlberg都不了解啊
请教“期望协方差”expected covariance的定义[转载] Re: emacs 还是比较麻烦
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底