由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 怎样利用AMS在R里面做一个大数据的分析?
相关主题
跑深度学习的程序需要啥高级机器吗?kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
大家觉得Weka和Python比较如何?刚知道有这个版。问一下nosql比sql好在哪里?
如何改变spark dataframe的column namesBig data是下一个大坑吗
单机学习spark/hadoop的方案? (转载)Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)
什么叫做大数据?DS需要会的手艺 真不少
请教各位DS大拿请问如何用JDBC连接R和Hive (转载)
sort a matrix (1M rows x 100 columns) for each row in GPU三星samsung创新部门招大数据工程师 (转载)
Memory Error in pandas.concat with Python有人在Big Data 用MATLAB ?
相关话题的讨论汇总
话题: aws话题: ams话题: 数据话题: 分析话题: 内存
进入DataSciences版参与讨论
1 (共1页)
t********m
发帖数: 939
1
菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R
里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然
需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之
类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢
了。
l******n
发帖数: 9344
2
Ams是啥?

在R

【在 t********m 的大作中提到】
: 菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R
: 里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然
: 需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之
: 类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢
: 了。

t********m
发帖数: 939
3
AWS is Amazon Web Services
f***8
发帖数: 571
4
yeah, it is called AWS:)
如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比
原生R快很多。
如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就
得上Spark了?

【在 t********m 的大作中提到】
: AWS is Amazon Web Services
l******n
发帖数: 9344
5
......
第一次看到这种写法,真有创新精神

【在 t********m 的大作中提到】
: AWS is Amazon Web Services
t********m
发帖数: 939
6
sorry, should be AWS.

【在 l******n 的大作中提到】
: ......
: 第一次看到这种写法,真有创新精神

t********m
发帖数: 939
7
多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

【在 f***8 的大作中提到】
: yeah, it is called AWS:)
: 如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比
: 原生R快很多。
: 如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就
: 得上Spark了?

l******n
发帖数: 9344
8
你还是用你自己电脑吧,32g内存应该差不多,不够就减几个column或者filter一下数
据。

AWS
了!

【在 t********m 的大作中提到】
: 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
: 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
: 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
: 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
: 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

O*O
发帖数: 2284
9
说说你要算啥
估计下计算中的内存需求

AWS
了!

【在 t********m 的大作中提到】
: 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
: 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
: 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
: 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
: 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

Z**0
发帖数: 1119
10
你在单机上,load data后用了多少内存?用了20G?下面做数据分析,还需要额外的内
存,这个依赖于你的的research,用什么package来分析数据。
AWS费用不是很高,是按照时间来计算价格的,内存大的instance,费用会高不少。如
果你要用,你应该在你自己的机器上,用1M row的数据,把所有的code,都测试好,测
试运行时间,估算在所有数据在AWS上的运行时间。然后在AWS上,对所有的数据,一次
运行你的code,尽可能减少使用AWS的时间。如果你的分析是ad hoc,你需要explore,
费用就比较难预测。
看这个chart:
https://aws.amazon.com/ec2/pricing/
max:2-3 $/hr
1 (共1页)
进入DataSciences版参与讨论
相关主题
有人在Big Data 用MATLAB ?什么叫做大数据?
有谁在上UW的data science课吗?请教各位DS大拿
pig能做iterative的问题吗?sort a matrix (1M rows x 100 columns) for each row in GPU
[Data Science Project Case] Topic LearningMemory Error in pandas.concat with Python
跑深度学习的程序需要啥高级机器吗?kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
大家觉得Weka和Python比较如何?刚知道有这个版。问一下nosql比sql好在哪里?
如何改变spark dataframe的column namesBig data是下一个大坑吗
单机学习spark/hadoop的方案? (转载)Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)
相关话题的讨论汇总
话题: aws话题: ams话题: 数据话题: 分析话题: 内存