由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 大数据该怎么处理?
相关主题
读入SAS data set的问题Dataset merge的一个问题
one little SAS question[SAS]怎么快捷地删除Macro 里创建的临时dataset和macro variab
[合集] SAS 读入数据的问题请教一个UNIX下面用SAS的弱智问题
请教如何用R处理比较大的文件。问个效率问题 SQL vs data step,大数据量
SAS数据输入疑问SAS菜鸟请教如果使SAS的output的结果放到一个文件内?
读入 1000 - 2000 个CSV 文件求一段SAS code
发包子求大牛解SAS问题,急求教 SAS base 123 Q 16
SAS QuestionSAS help : Proc dataset
相关话题的讨论汇总
话题: 数据话题: 处理话题: violate话题: assumption话题: matlab
进入Statistics版参与讨论
1 (共1页)
R*****d
发帖数: 420
1
有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感
觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理
呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果
问大数据的处理的话。
R*****d
发帖数: 420
2
SAS能处理的data set,最大能有多大dimension?

【在 R*****d 的大作中提到】
: 有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感
: 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理
: 呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果
: 问大数据的处理的话。

R*****d
发帖数: 420
3
matlab呢?Thank you!

【在 R*****d 的大作中提到】
: SAS能处理的data set,最大能有多大dimension?
d*******1
发帖数: 854
4
下午刚做了一个import, 2亿行,12个variable, txt file 十几个G,读入SAS用时50分钟

【在 R*****d 的大作中提到】
: SAS能处理的data set,最大能有多大dimension?
h******s
发帖数: 3420
5
你不是博士吗?博士就应该去申请搞数学model 那块的位置,statistical consulting
那种。 programming 是硕士的活,还没见过博士搞data management 的

【在 R*****d 的大作中提到】
: 有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感
: 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理
: 呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果
: 问大数据的处理的话。

v******i
发帖数: 1246
6
就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步
要多用where drop 之类的把不要的去掉
但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption
就很难violate了 我不太清楚大数据要怎么保证model的准确性
w*********a
发帖数: 156
7
是很容易violate吧?

assumption

【在 v******i 的大作中提到】
: 就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步
: 要多用where drop 之类的把不要的去掉
: 但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption
: 就很难violate了 我不太清楚大数据要怎么保证model的准确性

v******i
发帖数: 1246
8
就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步
要多用where drop 之类的把不要的去掉
但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption
就很难violate了 我不太清楚大数据要怎么保证model的准确性
B******5
发帖数: 4676
9
这也太折腾了,内存多大?大部分时间浪费在写swap上了吧

分钟

【在 d*******1 的大作中提到】
: 下午刚做了一个import, 2亿行,12个variable, txt file 十几个G,读入SAS用时50分钟
c**********2
发帖数: 301
10
我也被问过hadoop的问题,最近准备去看看。
1 (共1页)
进入Statistics版参与讨论
相关主题
SAS help : Proc datasetSAS数据输入疑问
SAS 问题:关于比较variable 包子答谢读入 1000 - 2000 个CSV 文件
请问怎么在SAS里面删掉某些特定的dataset?发包子求大牛解SAS问题,急
Python:请问如何把list变成structured array。 (转载)SAS Question
读入SAS data set的问题Dataset merge的一个问题
one little SAS question[SAS]怎么快捷地删除Macro 里创建的临时dataset和macro variab
[合集] SAS 读入数据的问题请教一个UNIX下面用SAS的弱智问题
请教如何用R处理比较大的文件。问个效率问题 SQL vs data step,大数据量
相关话题的讨论汇总
话题: 数据话题: 处理话题: violate话题: assumption话题: matlab