由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Spark現在過氣了嗎?
相关主题
天天嚷嚷这个 out 那个out的真是有病搜索 lucene 之类是不是不流行了?
搜索系统设计spark contributors
Spark已经out了,能跳船的赶快Flink可以contribute
Flink Sparks Next Wave of Distributed Data Processing看了flink,不能不说有点小期待
感觉flink出来之后,hadoop就显得不怎么再需要了spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧?
搞不懂为什么大牛说Hbase不如C*?IBM is all into Spark
MapReduce 的思想是怎么发明的?赵老师讲讲flink
大牛讲讲mongoDB这种开源的怎么赚钱?问卷,2016你最想学习的一门技术
相关话题的讨论汇总
话题: spark话题: hadoop话题: br话题: 数据话题: 统计学
进入Programming版参与讨论
1 (共1页)
g****t
发帖数: 31659
1
4年過去了,spark現在用的人多嗎?謝謝指點。
发信人: fangtuo2 (房托), 信区: Programming
标 题: Spark已经out了,能跳船的赶快
发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
Hadoop被人抛弃还快(<5年,Hadoop的上升期)
Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人
,更何况是站在Spark经验教训的肩膀上作一些改善),但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了(而且是巨型资本,换句话说就是重型发动机),没有办法
停下来思考什么是正确轨道,而是在自己的轨道冲下去。
德国的一群年轻人在一个教授(有IBM数据酷的长期背景)的带领下搞了个Flink,社区
非常活跃,而且成立了公司运作,估计会成为ElasticSearch这样一个欧洲发源,征服
美国的下一个大数据新宠。
立此存照。
C*****l
发帖数: 1
2
还没来得及学就已经落伍了,现在都用什么工具?
h*i
发帖数: 3446
3
说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东
西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
在我看来,大数据只有流处理在商业上是有用的。

【在 g****t 的大作中提到】
: 4年過去了,spark現在用的人多嗎?謝謝指點。
: 发信人: fangtuo2 (房托), 信区: Programming
: 标 题: Spark已经out了,能跳船的赶快
: 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
: 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
: Hadoop被人抛弃还快(<5年,Hadoop的上升期)
: Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
: 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
: 正意义上的流处理。
: 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人

d*******r
发帖数: 3299
4
所以还是该继续用 Hadoop? 至少我看到各个 Data 相关的 Backend 职位,还是要
Hadoop 的.

【在 g****t 的大作中提到】
: 4年過去了,spark現在用的人多嗎?謝謝指點。
: 发信人: fangtuo2 (房托), 信区: Programming
: 标 题: Spark已经out了,能跳船的赶快
: 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
: 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
: Hadoop被人抛弃还快(<5年,Hadoop的上升期)
: Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
: 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
: 正意义上的流处理。
: 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人

s********k
发帖数: 6180
5
Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark
这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near real time
都需要streaming 处理

【在 g****t 的大作中提到】
: 4年過去了,spark現在用的人多嗎?謝謝指點。
: 发信人: fangtuo2 (房托), 信区: Programming
: 标 题: Spark已经out了,能跳船的赶快
: 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
: 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
: Hadoop被人抛弃还快(<5年,Hadoop的上升期)
: Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
: 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
: 正意义上的流处理。
: 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人

g****t
发帖数: 31659
6
MySQL query 的話,只能單核吧?Oracle等在分布式處理方面需要不少馬公才可以搞定。
沒有大數據工具集帶來的便利。不可能幾個人就搞定Instagram, Dropbox 之類的項目
的。


: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来
的的解

: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有
一个东

: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。

: 在我看来,大数据只有流处理在商业上是有用的。



【在 h*i 的大作中提到】
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东
: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: 在我看来,大数据只有流处理在商业上是有用的。

g****t
发帖数: 31659
7
嗯。spark存儲數據的後端現在流行用什麼?hive ?


: Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark

: 这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near
real time

: 都需要streaming 处理



【在 s********k 的大作中提到】
: Flink被阿里收编了,硅谷大厂用起来可能不太愿意了,还是用spark
: 这么多machine learning, AI用spark很多啊,搜索推荐广告三件套的near real time
: 都需要streaming 处理

h**k
发帖数: 662
8
Hive, Redshift, Snowflake
H****E
发帖数: 254
9
过气的其中一个可能就是人人都在用了,已经是default.
x***4
发帖数: 1815
10
变成水电一样的utility了。大家都离不开,但是新talent也不想去。

【在 g****t 的大作中提到】
: 4年過去了,spark現在用的人多嗎?謝謝指點。
: 发信人: fangtuo2 (房托), 信区: Programming
: 标 题: Spark已经out了,能跳船的赶快
: 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
: 首先,本文不不是说Spark会死,而是说它的衰落会比预想的还有快,具体地说就是比
: Hadoop被人抛弃还快(<5年,Hadoop的上升期)
: Spark的问题就是核心引擎落后,核心部分就是个大的in-memory版Hadoop,完全抛弃
: 数据酷领域多年积累。这后面有很多问题暴露出来,例如,SparkStreaming就没法做真
: 正意义上的流处理。
: 如果没有VC的投入,上面这些问题可能还有机会解决(Berkeley从来不缺聪明的年轻人

相关主题
MapReduce 的思想是怎么发明的?spark contributors
大牛讲讲mongoDB这种开源的怎么赚钱?Flink可以contribute
搜索 lucene 之类是不是不流行了?看了flink,不能不说有点小期待
进入Programming版参与讨论
f******2
发帖数: 2455
11
你说的不对,hadoop spark这些批处理平台还是非常有意义的。
它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问
题。


: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一
想出来
的的解

: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学
里面有
一个东

: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。

: 在我看来,大数据只有流处理在商业上是有用的。



【在 h*i 的大作中提到】
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东
: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: 在我看来,大数据只有流处理在商业上是有用的。

d*******r
发帖数: 3299
12
大牛觉得 Spark 现在如何? 和 Hadoop 比呢?

【在 f******2 的大作中提到】
: 你说的不对,hadoop spark这些批处理平台还是非常有意义的。
: 它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问
: 题。
:
:
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一
: 想出来
: 的的解
:
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学
: 里面有
: 一个东

g****t
发帖数: 31659
13
传统的非分布式数据库有原理上的硬伤。后来改成分布式的,不如原生的分布式数据库
的设计。


: 你说的不对,hadoop spark这些批处理平台还是非常有意义的。

: 它们的应用不是你说没有用就没有用的,这些use case都是google
Facebook的
经典问

: 题。

:

【在 f******2 的大作中提到】
: 你说的不对,hadoop spark这些批处理平台还是非常有意义的。
: 它们的应用不是你说没有用就没有用的,这些use case都是google Facebook的经典问
: 题。
:
:
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一
: 想出来
: 的的解
:
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学
: 里面有
: 一个东

f******2
发帖数: 2455
14
不是大牛,纯属瞎忽悠。
回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。


: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?



【在 d*******r 的大作中提到】
: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
g****t
发帖数: 31659
15
現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。


: 不是大牛,纯属瞎忽悠。

: 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。



【在 f******2 的大作中提到】
: 不是大牛,纯属瞎忽悠。
: 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。
:
:
: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
:

f******2
发帖数: 2455
16
我原来的帖子(2015年)是说如果你想成为spark的社区开发者,已经晚了。
回答你的问题:我觉得如果你是spark的使用者,这个平台很好啊。越commoditized,
对你这个用户来说越好吧


: 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。



【在 g****t 的大作中提到】
: 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。
:
:
: 不是大牛,纯属瞎忽悠。
:
: 回头看,居然把Elastic的商业成功给懵对了(ipo了,现在市值6B)。
:

d*******r
发帖数: 3299
17
感觉现在 Spark 还是比 Hadoop 流行呢
不过最后这些开源工具, 是不是都在给 AWS 打工?
https://aws.amazon.com/emr/
最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的
https://aws.amazon.com/msk/

【在 f******2 的大作中提到】
: 我原来的帖子(2015年)是说如果你想成为spark的社区开发者,已经晚了。
: 回答你的问题:我觉得如果你是spark的使用者,这个平台很好啊。越commoditized,
: 对你这个用户来说越好吧
:
:
: 現在對spark什麼看法?我記得以前本版有個spark的核心人員來發言啊。
:

s********k
发帖数: 6180
18
工业界几乎所有的hadoop都在往spark转了吧,硬件内存增大,数据增多发现还是spark
更好用

【在 d*******r 的大作中提到】
: 感觉现在 Spark 还是比 Hadoop 流行呢
: 不过最后这些开源工具, 是不是都在给 AWS 打工?
: https://aws.amazon.com/emr/
: 最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的
: https://aws.amazon.com/msk/

c*********g
发帖数: 1
19
你没理解大数据的思想。对于很多ML模型来说,数据量越大,预测的准确率越高。统计
抽样是达不到这个准确率的。
数据量大甚至可以弥补算法上的不足。所以有一句话叫做:The one who has the most
data wins.

:说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的
解释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个
东西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
w********m
发帖数: 1137
20
Spark相当于跟AWS这类公共云打工吧。
小厂生存不容易阿。
f**********r
发帖数: 2137
21
长尾数据怎么抽样

【在 h*i 的大作中提到】
: 说实在的,我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
: 释是,可能因为搞计算机的不知道有一个东西,名字叫做统计学,统计学里面有一个东
: 西,叫做抽样。所以我从来就对什么hadoop,spark什么没有丁点的兴趣。
: 在我看来,大数据只有流处理在商业上是有用的。

1 (共1页)
进入Programming版参与讨论
相关主题
有人看好flink和storm吗感觉flink出来之后,hadoop就显得不怎么再需要了
大家都在哪里玩ElasticSearch? 64GB内存的主机不便宜啊搞不懂为什么大牛说Hbase不如C*?
大家做ElasticSearch或Solr的project都host在哪里?MapReduce 的思想是怎么发明的?
用AWS Elastic Beanstalk怎么配置连接MySQL数据库?大牛讲讲mongoDB这种开源的怎么赚钱?
天天嚷嚷这个 out 那个out的真是有病搜索 lucene 之类是不是不流行了?
搜索系统设计spark contributors
Spark已经out了,能跳船的赶快Flink可以contribute
Flink Sparks Next Wave of Distributed Data Processing看了flink,不能不说有点小期待
相关话题的讨论汇总
话题: spark话题: hadoop话题: br话题: 数据话题: 统计学