Spark現在過氣了嗎？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - Spark現在過氣了嗎？

相关主题
● 天天嚷嚷这个 out 那个out的真是有病	● 搜索 lucene 之类是不是不流行了？
● 搜索系统设计	● spark contributors
● Spark已经out了，能跳船的赶快	● Flink可以contribute
● Flink Sparks Next Wave of Distributed Data Processing	● 看了flink，不能不说有点小期待
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？
● 搞不懂为什么大牛说Hbase不如C*?	● IBM is all into Spark
● MapReduce 的思想是怎么发明的？	● 赵老师讲讲flink
● 大牛讲讲mongoDB这种开源的怎么赚钱？	● 问卷，2016你最想学习的一门技术

相关话题的讨论汇总
话题: spark话题: hadoop话题: br话题: 数据话题: 统计学

进入Programming版参与讨论

(共1页)

g****t
发帖数: 31659

4年過去了，spark現在用的人多嗎？謝謝指點。
发信人: fangtuo2 (房托), 信区: Programming
标题: Spark已经out了，能跳船的赶快
发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
首先，本文不不是说Spark会死，而是说它的衰落会比预想的还有快，具体地说就是比
Hadoop被人抛弃还快（<5年，Hadoop的上升期）
Spark的问题就是核心引擎落后，核心部分就是个大的in－memory版Hadoop，完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来，例如，SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入，上面这些问题可能还有机会解决（Berkeley从来不缺聪明的年轻人
，更何况是站在Spark经验教训的肩膀上作一些改善），但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了（而且是巨型资本，换句话说就是重型发动机），没有办法
停下来思考什么是正确轨道，而是在自己的轨道冲下去。
德国的一群年轻人在一个教授（有IBM数据酷的长期背景）的带领下搞了个Flink，社区
非常活跃，而且成立了公司运作，估计会成为ElasticSearch这样一个欧洲发源，征服
美国的下一个大数据新宠。
立此存照。

C*****l
发帖数: 1

还没来得及学就已经落伍了，现在都用什么工具？

h*i
发帖数: 3446

说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学里面有一个东
西，叫做抽样。所以我从来就对什么hadoop，spark什么没有丁点的兴趣。
在我看来，大数据只有流处理在商业上是有用的。

【在 g****t 的大作中提到】

: 4年過去了，spark現在用的人多嗎？謝謝指點。
: 发信人: fangtuo2 (房托), 信区: Programming
: 标题: Spark已经out了，能跳船的赶快
: 发信站: BBS 未名空间站 (Sat Apr 18 15:43:12 2015, 美东)
: 首先，本文不不是说Spark会死，而是说它的衰落会比预想的还有快，具体地说就是比
: Hadoop被人抛弃还快（<5年，Hadoop的上升期）
: Spark的问题就是核心引擎落后，核心部分就是个大的in－memory版Hadoop，完全抛弃
: 数据酷领域多年积累。这后面有很多问题暴露出来，例如，SparkStreaming就没法做真
: 正意义上的流处理。
: 如果没有VC的投入，上面这些问题可能还有机会解决（Berkeley从来不缺聪明的年轻人

d*******r
发帖数: 3299

所以还是该继续用 Hadoop? 至少我看到各个 Data 相关的 Backend 职位，还是要
Hadoop 的.

【在 g****t 的大作中提到】

s********k
发帖数: 6180

Flink被阿里收编了，硅谷大厂用起来可能不太愿意了，还是用spark
这么多machine learning， AI用spark很多啊，搜索推荐广告三件套的near real time
都需要streaming 处理

【在 g****t 的大作中提到】

g****t
发帖数: 31659

MySQL query 的話，只能單核吧？Oracle等在分布式處理方面需要不少馬公才可以搞定。
沒有大數據工具集帶來的便利。不可能幾個人就搞定Instagram, Dropbox 之類的項目
的。

: 说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来
的的解

: 释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学里面有
一个东

: 西，叫做抽样。所以我从来就对什么hadoop，spark什么没有丁点的兴趣。

: 在我看来，大数据只有流处理在商业上是有用的。

【在 h*i 的大作中提到】

: 说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的解
: 释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学里面有一个东
: 西，叫做抽样。所以我从来就对什么hadoop，spark什么没有丁点的兴趣。
: 在我看来，大数据只有流处理在商业上是有用的。

g****t
发帖数: 31659

嗯。spark存儲數據的後端現在流行用什麼？hive ？

: Flink被阿里收编了，硅谷大厂用起来可能不太愿意了，还是用spark

: 这么多machine learning， AI用spark很多啊，搜索推荐广告三件套的near
real time

: 都需要streaming 处理

【在 s********k 的大作中提到】

: Flink被阿里收编了，硅谷大厂用起来可能不太愿意了，还是用spark
: 这么多machine learning， AI用spark很多啊，搜索推荐广告三件套的near real time
: 都需要streaming 处理

h**k
发帖数: 662

Hive, Redshift, Snowflake

H****E
发帖数: 254

过气的其中一个可能就是人人都在用了，已经是default.

x***4
发帖数: 1815

变成水电一样的utility了。大家都离不开，但是新talent也不想去。

【在 g****t 的大作中提到】

相关主题
● MapReduce 的思想是怎么发明的？	● spark contributors
● 大牛讲讲mongoDB这种开源的怎么赚钱？	● Flink可以contribute
● 搜索 lucene 之类是不是不流行了？	● 看了flink，不能不说有点小期待
进入Programming版参与讨论

f******2
发帖数: 2455

你说的不对，hadoop spark这些批处理平台还是非常有意义的。
它们的应用不是你说没有用就没有用的，这些use case都是google Facebook的经典问
题。

: 说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一
想出来
的的解

: 释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学
里面有
一个东

: 西，叫做抽样。所以我从来就对什么hadoop，spark什么没有丁点的兴趣。

: 在我看来，大数据只有流处理在商业上是有用的。

【在 h*i 的大作中提到】

d*******r
发帖数: 3299

大牛觉得 Spark 现在如何? 和 Hadoop 比呢?

【在 f******2 的大作中提到】

: 你说的不对，hadoop spark这些批处理平台还是非常有意义的。
: 它们的应用不是你说没有用就没有用的，这些use case都是google Facebook的经典问
: 题。
:
:
: 说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一
: 想出来
: 的的解
:
: 释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学
: 里面有
: 一个东

g****t
发帖数: 31659

传统的非分布式数据库有原理上的硬伤。后来改成分布式的，不如原生的分布式数据库
的设计。

: 你说的不对，hadoop spark这些批处理平台还是非常有意义的。

: 它们的应用不是你说没有用就没有用的，这些use case都是google
Facebook的
经典问

: 题。

:

【在 f******2 的大作中提到】

f******2
发帖数: 2455

不是大牛，纯属瞎忽悠。
回头看，居然把Elastic的商业成功给懵对了（ipo了，现在市值6B）。

: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?

【在 d*******r 的大作中提到】

: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?

g****t
发帖数: 31659

現在對spark什麼看法？我記得以前本版有個spark的核心人員來發言啊。

: 不是大牛，纯属瞎忽悠。

: 回头看，居然把Elastic的商业成功给懵对了（ipo了，现在市值6B）。

【在 f******2 的大作中提到】

: 不是大牛，纯属瞎忽悠。
: 回头看，居然把Elastic的商业成功给懵对了（ipo了，现在市值6B）。
:
:
: 大牛觉得 Spark 现在如何? 和 Hadoop 比呢?
:

f******2
发帖数: 2455

我原来的帖子（2015年）是说如果你想成为spark的社区开发者，已经晚了。
回答你的问题：我觉得如果你是spark的使用者，这个平台很好啊。越commoditized，
对你这个用户来说越好吧

: 現在對spark什麼看法？我記得以前本版有個spark的核心人員來發言啊。

【在 g****t 的大作中提到】

: 現在對spark什麼看法？我記得以前本版有個spark的核心人員來發言啊。
:
:
: 不是大牛，纯属瞎忽悠。
:
: 回头看，居然把Elastic的商业成功给懵对了（ipo了，现在市值6B）。
:

d*******r
发帖数: 3299

感觉现在 Spark 还是比 Hadoop 流行呢
不过最后这些开源工具, 是不是都在给 AWS 打工?
https://aws.amazon.com/emr/
最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的
https://aws.amazon.com/msk/

【在 f******2 的大作中提到】

: 我原来的帖子（2015年）是说如果你想成为spark的社区开发者，已经晚了。
: 回答你的问题：我觉得如果你是spark的使用者，这个平台很好啊。越commoditized，
: 对你这个用户来说越好吧
:
:
: 現在對spark什麼看法？我記得以前本版有個spark的核心人員來發言啊。
:

s********k
发帖数: 6180

工业界几乎所有的hadoop都在往spark转了吧，硬件内存增大，数据增多发现还是spark
更好用

【在 d*******r 的大作中提到】

: 感觉现在 Spark 还是比 Hadoop 流行呢
: 不过最后这些开源工具, 是不是都在给 AWS 打工?
: https://aws.amazon.com/emr/
: 最近发现 AWS 都有 mananged Kafka 了, 2018 年末才出来的
: https://aws.amazon.com/msk/

c*********g
发帖数: 1

你没理解大数据的思想。对于很多ML模型来说，数据量越大，预测的准确率越高。统计
抽样是达不到这个准确率的。
数据量大甚至可以弥补算法上的不足。所以有一句话叫做：The one who has the most
data wins.

：说实在的，我一直想不出大数据批处理在商业上有什么实用价值。我唯一想出来的的
解释是，可能因为搞计算机的不知道有一个东西，名字叫做统计学，统计学里面有一个
东西，叫做抽样。所以我从来就对什么hadoop，spark什么没有丁点的兴趣。
：

w********m
发帖数: 1137

Spark相当于跟AWS这类公共云打工吧。
小厂生存不容易阿。

f**********r
发帖数: 2137

长尾数据怎么抽样

【在 h*i 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● 有人看好flink和storm吗	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 大家都在哪里玩ElasticSearch? 64GB内存的主机不便宜啊	● 搞不懂为什么大牛说Hbase不如C*?
● 大家做ElasticSearch或Solr的project都host在哪里？	● MapReduce 的思想是怎么发明的？
● 用AWS Elastic Beanstalk怎么配置连接MySQL数据库？	● 大牛讲讲mongoDB这种开源的怎么赚钱？
● 天天嚷嚷这个 out 那个out的真是有病	● 搜索 lucene 之类是不是不流行了？
● 搜索系统设计	● spark contributors
● Spark已经out了，能跳船的赶快	● Flink可以contribute
● Flink Sparks Next Wave of Distributed Data Processing	● 看了flink，不能不说有点小期待

相关话题的讨论汇总
话题: spark话题: hadoop话题: br话题: 数据话题: 统计学

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天