g****t 发帖数: 31659 | 1 4年過去了,spark現在用的人多嗎?謝謝指點。
发信人: fangtuo2 (房托), 信区: Programming
标 题: Spark已经out了,能跳船的赶快
发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
Hadoop被人抛弃还快(<5年,Hadoop的上升期)
Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
,更何况是站在Spark经验教训的肩膀上作一些改善),但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了(而且是巨型资本,换句话说就是重型发动机),没有办法
停下来思考什么是正确轨道,而是在自己的轨道冲下去。
德国的一群年轻人在一个教授(有IBM数据酷的长期背景)的带领下搞了个Flink,社区
非常活跃,而且成立了公司运作,估计会成为ElasticSearch这样一个欧洲发源,征服
美国的下一个大数据新宠。
立此存照。 |
C*****l 发帖数: 1 | |
h*i 发帖数: 3446 | 3 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东
西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
在我看来,大数据只有流处理在商业上是有用的。
【在 g****t 的大作中提到】 : 4年過去了,spark現在用的人多嗎?謝謝指點。 : 发信人: fangtuo2 (房托), 信区: Programming : 标 题: Spark已经out了,能跳船的赶快 : 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东) : 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比 : Hadoop被人抛弃还快(<5年,Hadoop的上升期) : Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃 : 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真 : 正意义上的流处理。 : 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
|
d*******r 发帖数: 3299 | 4 所以还是该继续用 Hadoop? 至少我看到各个 Data 相关的 Backend 职位,还是要
Hadoop 的.
【在 g****t 的大作中提到】 : 4年過去了,spark現在用的人多嗎?謝謝指點。 : 发信人: fangtuo2 (房托), 信区: Programming : 标 题: Spark已经out了,能跳船的赶快 : 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东) : 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比 : Hadoop被人抛弃还快(<5年,Hadoop的上升期) : Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃 : 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真 : 正意义上的流处理。 : 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
|
s********k 发帖数: 6180 | 5 Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark
这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near real time
都需要streaming 处理
【在 g****t 的大作中提到】 : 4年過去了,spark現在用的人多嗎?謝謝指點。 : 发信人: fangtuo2 (房托), 信区: Programming : 标 题: Spark已经out了,能跳船的赶快 : 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东) : 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比 : Hadoop被人抛弃还快(<5年,Hadoop的上升期) : Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃 : 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真 : 正意义上的流处理。 : 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
|
g****t 发帖数: 31659 | 6 MySQL query 的話,只能單核吧?Oracle等在分布式處理方面需要不少馬公才可以搞定。
沒有大數據工具集帶來的便利。不可能幾個人就搞定Instagram, Dropbox 之類的項目
的。
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来
的的解
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有
一个东
: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: 在我看来,大数据只有流处理在商业上是有用的。
【在 h*i 的大作中提到】 : 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解 : 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东 : 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。 : 在我看来,大数据只有流处理在商业上是有用的。
|
g****t 发帖数: 31659 | 7 嗯。spark存儲數據的後端現在流行用什麼?hive ?
: Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark
: 这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near
real time
: 都需要streaming 处理
【在 s********k 的大作中提到】 : Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark : 这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near real time : 都需要streaming 处理
|
h**k 发帖数: 662 | 8 Hive, Redshift, Snowflake |
H****E 发帖数: 254 | 9 过气的其中一个可能就是人人都在用了,已经是default. |
x***4 发帖数: 1815 | 10 变成水电一样的utility了。大家都离不开,但是新talent也不想去。
【在 g****t 的大作中提到】 : 4年過去了,spark現在用的人多嗎?謝謝指點。 : 发信人: fangtuo2 (房托), 信区: Programming : 标 题: Spark已经out了,能跳船的赶快 : 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东) : 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比 : Hadoop被人抛弃还快(<5年,Hadoop的上升期) : Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃 : 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真 : 正意义上的流处理。 : 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
|
|
|
f******2 发帖数: 2455 | 11 你说的不对,hadoop spark这些批处理平台还是非常有意义的。
它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问
题。
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一
想出来
的的解
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学
里面有
一个东
: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: 在我看来,大数据只有流处理在商业上是有用的。
【在 h*i 的大作中提到】 : 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解 : 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东 : 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。 : 在我看来,大数据只有流处理在商业上是有用的。
|
d*******r 发帖数: 3299 | 12 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
【在 f******2 的大作中提到】 : 你说的不对,hadoop spark这些批处理平台还是非常有意义的。 : 它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问 : 题。 : : : 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一 : 想出来 : 的的解 : : 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学 : 里面有 : 一个东
|
g****t 发帖数: 31659 | 13 传统的非分布式数据库有原理上的硬伤。后来改成分布式的,不如原生的分布式数据库
的设计。
: 你说的不对,hadoop spark这些批处理平台还是非常有意义的。
: 它们的应用不是你说没有用就没有用的,这些use case都是google
Facebook的
经典问
: 题。
:
【在 f******2 的大作中提到】 : 你说的不对,hadoop spark这些批处理平台还是非常有意义的。 : 它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问 : 题。 : : : 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一 : 想出来 : 的的解 : : 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学 : 里面有 : 一个东
|
f******2 发帖数: 2455 | 14 不是大牛,纯属瞎忽悠。
回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。
: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
【在 d*******r 的大作中提到】 : 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
|
g****t 发帖数: 31659 | 15 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。
: 不是大牛,纯属瞎忽悠。
: 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。
【在 f******2 的大作中提到】 : 不是大牛,纯属瞎忽悠。 : 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。 : : : 大牛觉得 Spark 现在如何? 和 Hadoop 比呢? :
|
f******2 发帖数: 2455 | 16 我原来的帖子(2015年)是说如果你想成为spark的社区开发者,已经晚了。
回答你的问题:我觉得如果你是spark的使用者,这个平台很好啊。越commoditized,
对你这个用户来说越好吧
: 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。
【在 g****t 的大作中提到】 : 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。 : : : 不是大牛,纯属瞎忽悠。 : : 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。 :
|
d*******r 发帖数: 3299 | 17 感觉现在 Spark 还是比 Hadoop 流行呢
不过最后这些开源工具, 是不是都在给 AWS 打工?
https://aws.amazon.com/emr/
最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的
https://aws.amazon.com/msk/
【在 f******2 的大作中提到】 : 我原来的帖子(2015年)是说如果你想成为spark的社区开发者,已经晚了。 : 回答你的问题:我觉得如果你是spark的使用者,这个平台很好啊。越commoditized, : 对你这个用户来说越好吧 : : : 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。 :
|
s********k 发帖数: 6180 | 18 工业界几乎所有的hadoop都在往spark转了吧,硬件内存增大,数据增多发现还是spark
更好用
【在 d*******r 的大作中提到】 : 感觉现在 Spark 还是比 Hadoop 流行呢 : 不过最后这些开源工具, 是不是都在给 AWS 打工? : https://aws.amazon.com/emr/ : 最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的 : https://aws.amazon.com/msk/
|
c*********g 发帖数: 1 | 19 你没理解大数据的思想。对于很多ML模型来说,数据量越大,预测的准确率越高。统计
抽样是达不到这个准确率的。
数据量大甚至可以弥补算法上的不足。所以有一句话叫做:The one who has the most
data wins.
:说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的
解释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个
东西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: |
w********m 发帖数: 1137 | 20 Spark相当于跟AWS这类公共云打工吧。
小厂生存不容易阿。 |
f**********r 发帖数: 2137 | 21 长尾数据怎么抽样
【在 h*i 的大作中提到】 : 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解 : 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东 : 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。 : 在我看来,大数据只有流处理在商业上是有用的。
|