B***n 发帖数: 84 | 1 难道是因为所有计算都是in memory的?看了databrick 的demo,每个cluster的内存都
是上千G的。
但内存大的话计算显然快呀,这idea不是很简单么?
新手,求科普,谢谢 |
n******t 发帖数: 4406 | 2 牛在it能骗钱。
【在 B***n 的大作中提到】 : 难道是因为所有计算都是in memory的?看了databrick 的demo,每个cluster的内存都 : 是上千G的。 : 但内存大的话计算显然快呀,这idea不是很简单么? : 新手,求科普,谢谢
|
l*******m 发帖数: 1096 | 3 RDD is a critical and fundamental part of spark.
【在 B***n 的大作中提到】 : 难道是因为所有计算都是in memory的?看了databrick 的demo,每个cluster的内存都 : 是上千G的。 : 但内存大的话计算显然快呀,这idea不是很简单么? : 新手,求科普,谢谢
|
s********k 发帖数: 6180 | 4 一直没搞懂这个RDD,到底牛在什么地方
【在 l*******m 的大作中提到】 : RDD is a critical and fundamental part of spark.
|
p*****2 发帖数: 21240 | 5 干就很牛轧
【在 s********k 的大作中提到】 : 一直没搞懂这个RDD,到底牛在什么地方
|
z******g 发帖数: 271 | 6 RDD can provide fault tolerance for in-memory intermediate result by only
storing very small amount of data on persistent storage. This is
particularly useful for iterative algorithms, since there is intermediate
result involved. Although in case there is not enough memory, Spark performs
exactly like Hadoop.
【在 s********k 的大作中提到】 : 一直没搞懂这个RDD,到底牛在什么地方
|
z******g 发帖数: 271 | 7 There is nothing new about in-memory. The key point is that RDD can achieve
fault tolerance for intermediate computation results without having to
writing the whole data back to disk. |