Hadoop Spark 学习小结[2014版] - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - Hadoop Spark 学习小结[2014版]

相关主题
● MapR Technologies continue hiring a lot of positions	● 面试犯2了
● 请问怎样才能很好的学习hadoop (转载)	● 有人收到过docker的offer么？
● Data bricks怎样？	● hadoop面试和学习总结
● 做Spark前途咋样啊？	● [hortonworks面经] senior hadoop engineer
● 2015年硅谷最火的高科技创业公司都有哪些？	● 后Hadoop时代的大数据架构
● Spark这个东西真的有很多公司在用吗。。？	● 有大牛用Storm吗？
● Cloudera这个公司怎么样	● 还有公司会在新项目选择mapReduce吗？
● 大数据公司Databricks内推	● Pinterest Software Engineer position for Data/Hadoop

相关话题的讨论汇总
话题: spark话题: hadoop话题: apache话题: summit话题: berkeley

进入JobHunting版参与讨论

(共1页)

d********w
发帖数: 363

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现仅有其
1/10或1/100 Reynold 作为Spark核心开发者，介绍
http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
起源于2010年Berkeley AMPLab，发表在hotcloud上
https://www.usenix.org/legacy/events/hotcloud10/tech/full_papers/Zaharia.pdf
是一个从学术界到工业界的成功典范，所以也吸引了顶级VC：Andreessen Horowitz的
注资
BTW: 这个实验室非常厉害，做大数据，云计算，跟工业界结合很紧密，比如Twitter也
Berkeley开了门课程
http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个BDAS (Bad Ass)引以为傲: https://amplab.cs.berkeley.edu/software/
http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-t
在2013年，这些大牛出动把Berkeley AMPLab的人拉出去成立了Databricks，半年就做
了2次summit
参会1000人，引无数Hadoop大佬尽折腰，大家看一下Summit的sponsor，所有hadoop厂
商全来了，并且各个技术公司也在巴结，cloudrea, hortonworks, mapr, datastax,
yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身
，马上要推出商业化产品Cloud
Spark 核心人物
Ion Stoica ：http://www.cs.berkeley.edu/~istoica/ Berkeley教授，AMPLab 领军
Matei Zaharia：http://people.csail.mit.edu/matei/ 天才，MIT助理教授
Reynold Xin: http://www.eecs.berkeley.edu/~rxin/
Haoyuan Li: http://www.cs.berkeley.edu/~haoyuan/
http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/
其实起名字也很重要，Spark就占了先机，CTO说 Where there's spark, there's fire!
http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-s
Spark核心数据结构：
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
Spark目前是1.0.2最新版本：https://spark.apache.org/docs/1.0.2/
目前还有一些子项目，比如 Spark SQL, Spark Streaming, MLLib, Graphx
如；http://spark.apache.org/streaming/
工业界也引起广泛兴趣，国内Taobao, baidu也开始使用：
https://cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark
Apache Spark支持4种分布式部署方式，分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
比如AWS:
http://www.getblueshift.com/blog/?p=56
至于如何入门，还是得好好看官方文档，上面有入门，搭建环境，Summit上的视频也是
http://spark-summit.org/2014/
也有个training视频：
http://spark-summit.org/2014/training
今年的Summit 回顾
http://www.csdn.net/article/2014-07-17/2820713
今年最叫好的demo是Dtabricks Cloud, 把twitter上面实时收集的数据做作为machine
learning素材，
用类似IPython notebook，可视化呈现惊艳，而搭建整个sampling系统就花了20分钟！
http://databricks.com/cloud
CSDN上面也有个Spark专栏，大家可以多去看看
spark.csdn.net
还有一些第三方的项目基于Spark上面
Web interactive UI on Hadoop/Spark: http://gethue.com/
Spark on cassandra:
http://planetcassandra.org/getting-started-with-apache-spark-an
https://github.com/datastax/spark-cassandra-connector
http://tuplejump.github.io/calliope/
H2O + Spark:
http://databricks.com/blog/2014/06/30/sparkling-water-h20-spark
Shark - Hive and SQL on top of Spark
MLbase - Machine Learning research project on top of Spark
BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
Apache Mesos - Cluster management system that supports running Spark
Tachyon - In memory storage system that supports running Spark
Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
SparkR - R frontend for Spark
Spark Job Server - REST interface for managing and submitting Spark jobs on
the same cluster

t**r
发帖数: 3428

这玩意以后要kill掉hadoop了？

d********w
发帖数: 363

是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

【在 t**r 的大作中提到】

: 这玩意以后要kill掉hadoop了？

z****e
发帖数: 54598

re这个，spark的学习材料期待已久

z****e
发帖数: 54598

spark自身有一个ml的pkg
以后估计就按照这个往上搞了
其他ml的pkg估计都不怎么用了

t**r
发帖数: 3428

哈哈。那我这刚开始转行搞hadoop的可惨了

【在 d********w 的大作中提到】

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

z****e
发帖数: 54598

替换掉mapreduce这些
但是hdfs还是会用hadoop的

【在 d********w 的大作中提到】

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

y*c
发帖数: 904

赞

【在 z****e 的大作中提到】

: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

s***i
发帖数: 503

赞！收藏了。

e*****s
发帖数: 121

赞，今年hadoop summit基本上就两个主题，Hadoop 2.0和spark.

★ 发自iPhone App: ChineseWeb 8.7

【在 d********w 的大作中提到】

: 基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
: 属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

相关主题
● Spark这个东西真的有很多公司在用吗。。？	● 面试犯2了
● Cloudera这个公司怎么样	● 有人收到过docker的offer么？
● 大数据公司Databricks内推	● hadoop面试和学习总结
进入JobHunting版参与讨论

z****e
发帖数: 54598

感觉spark出来之后
storm还有其他ml的pkg尤其是python那几个都挺危险的
不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

e*****s
发帖数: 121

还有mahout, 太难用了。

★ 发自iPhone App: ChineseWeb 8.7

【在 z****e 的大作中提到】

: 感觉spark出来之后
: storm还有其他ml的pkg尤其是python那几个都挺危险的
: 不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

p*****2
发帖数: 21240

cassandra就可以了吧？

【在 z****e 的大作中提到】

: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

p*****2
发帖数: 21240

感觉未来是cassandra+spark的
hadoop可以跳过了

【在 d********w 的大作中提到】

z****e
发帖数: 54598

可以吧
但是hbase作为一个cp系统的代表，还是也了解一下比较好
毕竟c*是ap系统

【在 p*****2 的大作中提到】

: cassandra就可以了吧？

z****e
发帖数: 54598

lol
搞不好以后hadoop这么一大堆项目
最后剩下的就是还没毕业的hbase

【在 p*****2 的大作中提到】

: 感觉未来是cassandra+spark的
: hadoop可以跳过了

z****e
发帖数: 54598

二爷你用spark用scala吗？

【在 p*****2 的大作中提到】

: cassandra就可以了吧？

p*****2
发帖数: 21240

hbase也不好用

【在 z****e 的大作中提到】

: lol
: 搞不好以后hadoop这么一大堆项目
: 最后剩下的就是还没毕业的hbase

p*****2
发帖数: 21240

我用scala

【在 z****e 的大作中提到】

: 二爷你用spark用scala吗？

z****e
发帖数: 54598

hoho
还好今天看了一下这个贴
下一步先不用hadoop了，上spark和cassandra
之前一直犹豫，觉得hadoop有些太重了
看来拖延阵偶尔也还是有点好处的

【在 p*****2 的大作中提到】

: 我用scala

相关主题
● [hortonworks面经] senior hadoop engineer	● 还有公司会在新项目选择mapReduce吗？
● 后Hadoop时代的大数据架构	● Pinterest Software Engineer position for Data/Hadoop
● 有大牛用Storm吗？	● big data software engineer或者data scientist 工作机会推荐
进入JobHunting版参与讨论

p*****2
发帖数: 21240

确实太重了
我当时比较过hbase和cassandra感觉学习曲线相差太大了除了特殊的应用不然直接上
cassandra为佳
当然hbase有hadoop的优势现在spark来了就可以全活了
一个人搞定cassandra spark问题不大

【在 z****e 的大作中提到】

: hoho
: 还好今天看了一下这个贴
: 下一步先不用hadoop了，上spark和cassandra
: 之前一直犹豫，觉得hadoop有些太重了
: 看来拖延阵偶尔也还是有点好处的

z****e
发帖数: 54598

靠谱

【在 p*****2 的大作中提到】

: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势现在spark来了就可以全活了
: 一个人搞定cassandra spark问题不大

f******n
发帖数: 279

mark

d********w
发帖数: 363

Databricks CTO 说，现在feature呼声最大的是在Spark上加上Deep learning

【在 z****e 的大作中提到】

: spark自身有一个ml的pkg
: 以后估计就按照这个往上搞了
: 其他ml的pkg估计都不怎么用了

g*********e
发帖数: 14401

mark

z****e
发帖数: 54598

是啊，如果伯克利能开一个ml课程based on这个东西的话
那就太好了，比matlab那个实用太多

【在 d********w 的大作中提到】

: Databricks CTO 说，现在feature呼声最大的是在Spark上加上Deep learning

d********w
发帖数: 363

应该会的， Berkeley那么多ML牛人，分分钟搞个Lib出来

【在 z****e 的大作中提到】

: 是啊，如果伯克利能开一个ml课程based on这个东西的话
: 那就太好了，比matlab那个实用太多

Y*****y
发帖数: 361

上个月和Matei还有Reynold讨论项目，其实他们也没打算替代hadoop，两者是互为补充
。memory的价格和容量在现阶段还是受限，而且spark本身还没有job scheduling等等
完善的机制在里面，还需要进化。而且现在hadoop已经是个大的ecosystem了，不光局
限于最初的文件系统和计算引擎。

【在 d********w 的大作中提到】

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

c***z
发帖数: 6348

学习了，大牛威武
还是统计容易点，不用老这么折腾，老模型也都还能用
不过不折腾也拿不了高工资
有一个问题，为什么HDFS和其他系统的fault tolerance只是简单的dupes，而不是
error correction code 比如说 Hamming code 或者 Reed Solomon code

Y*****y
发帖数: 361

放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
，load balancing也更好做，这些是error correction code没有的好处。不过新的
hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

【在 c***z 的大作中提到】

: 学习了，大牛威武
: 还是统计容易点，不用老这么折腾，老模型也都还能用
: 不过不折腾也拿不了高工资
: 有一个问题，为什么HDFS和其他系统的fault tolerance只是简单的dupes，而不是
: error correction code 比如说 Hamming code 或者 Reed Solomon code

相关主题
● 硅谷地区中型 Hot Startup List	● 请问怎样才能很好的学习hadoop (转载)
● 报几个offer	● Data bricks怎样？
● MapR Technologies continue hiring a lot of positions	● 做Spark前途咋样啊？
进入JobHunting版参与讨论

c***z
发帖数: 6348

明白了，多谢指点！

【在 Y*****y 的大作中提到】

: 放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
: ，load balancing也更好做，这些是error correction code没有的好处。不过新的
: hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

P********e
发帖数: 387

lz你是不是快去databricks了啊~

z****e
发帖数: 54598

cron job可以用spring来做
http://spring.io/guides/gs/scheduling-tasks/
这样就可以用spark定期跑一下cron job了
这样就比hadoop那个cron job快了
都是java的东西么，hadoop不支持的功能
可以从其他项目中找

【在 Y*****y 的大作中提到】

: 上个月和Matei还有Reynold讨论项目，其实他们也没打算替代hadoop，两者是互为补充
: 。memory的价格和容量在现阶段还是受限，而且spark本身还没有job scheduling等等
: 完善的机制在里面，还需要进化。而且现在hadoop已经是个大的ecosystem了，不光局
: 限于最初的文件系统和计算引擎。

D*******7
发帖数: 61

zan

【在 d********w 的大作中提到】

h*****u
发帖数: 204

赞！
大牛觉得H2o怎么样啊？
https://github.com/0xdata/h2o

【在 d********w 的大作中提到】

h*****a
发帖数: 1718

Performance上面有什么明显的提升么？公司里面是不是能一个人很快搞定不是最重要
的考量吧。

【在 p*****2 的大作中提到】

d********w
发帖数: 363

当然不能把事情做绝了，最好做到我中有你，你中有我，到时两个都不能替代，其他用
Hadoop的公司也不用紧张，会有解决方案无缝迁移的，这是一种策略，所谓生态系统
就是最后大家都要为技术买单。

【在 Y*****y 的大作中提到】

d*********s
发帖数: 777

mark

r****c
发帖数: 2585

一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

【在 p*****2 的大作中提到】

p*****2
发帖数: 21240

听说10倍到百倍的提高。
我觉得很快搞定还是很重要的。很多公司不会给你那么多时间看效果的。能先上马重要
。

【在 h*****a 的大作中提到】

: Performance上面有什么明显的提升么？公司里面是不是能一个人很快搞定不是最重要
: 的考量吧。

相关主题
● 做Spark前途咋样啊？	● Cloudera这个公司怎么样
● 2015年硅谷最火的高科技创业公司都有哪些？	● 大数据公司Databricks内推
● Spark这个东西真的有很多公司在用吗。。？	● 面试犯2了
进入JobHunting版参与讨论

p*****2
发帖数: 21240

现在即使Hadoop的话，能凑齐一个有经验的团队还是很困难的。我认为只有少数公司可
以做到。
所以对于大多数公司来说，上手快很重要。

【在 r****c 的大作中提到】

: 一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

z****e
发帖数: 54598

hbase还没毕业
cp系统强求consistent也会影响效率
cassandra可以tune成cp，如果consistent不重要的话
就不tune，不tune的话就对效率没啥影响
有选择很重要呀
现在team的规模也在逐步变小，很多项目都是1－2个人在做

【在 r****c 的大作中提到】

: 一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

p*****2
发帖数: 21240

确实现在常常一个人要做一个team的work所以技术选型很重要
我看很多大公司出来使用的技术很heavy，自己干着也很累

【在 z****e 的大作中提到】

: hbase还没毕业
: cp系统强求consistent也会影响效率
: cassandra可以tune成cp，如果consistent不重要的话
: 就不tune，不tune的话就对效率没啥影响
: 有选择很重要呀
: 现在team的规模也在逐步变小，很多项目都是1－2个人在做

b*****t
发帖数: 296

spark在内存不足的情况下performance 的degradation相当严重。还有就是
scalability的问题。
说白了无论那种系统，无非是利用memory 等级的performance不同来提高性能，并无什
么新鲜东西。支持你的人多，你做的早，就是了。hadoop summit已经没有去的必要了
。基本是vendor和customer的架势了。看新技术还是OSDI，SC吧。
还有就是个人崇拜，毫无必要，我们只看他们做的事情，客观的认识他们做的事情，你
才能从中总结出东西，并不再做盲目跟从的人。Metai早起的fair scheduling on
mapreduce也不是没有问题。
楼主在linkedin吧。要说最大的hadoop cluster，还是Yahoo的吧。据说twitter还是
linkedin内部好像还没有enable security？你们还用mesos？ anyway，spark只是一个
solution，客观看到就好，一时半会，还没人能达到Y家hadoopcluster的规模，还有很
多中小公司在用hadoop 1.x
我倒是觉得，计算平台日新月异，从当初的mpi,openmp, 到今天的MR, DAG等等。但是
背后的存储系统进化并不快，而且稳扎稳打，要想不被快速淘汰，文件存储技术相对安
全。

b*****t
发帖数: 296

还有就是那些炫目的数字，快多少倍。没有全面客观的比较，对于一个critical
thinking的PhD来说，那些数字只是corner case。

n******t
发帖数: 4406

这东西就是骗钱的。。。
用memory，为啥不用L1 cache啊？lol

【在 d********w 的大作中提到】

C**********r
发帖数: 8189

that would be awesome!

【在 d********w 的大作中提到】

: Databricks CTO 说，现在feature呼声最大的是在Spark上加上Deep learning

o**********e
发帖数: 18403

zan!

w**a
发帖数: 487

这，这，。。这让我们这些转行的，想拿hadoop做跳板，连hadoop都没摸热的人，怎么
活啊？

【在 d********w 的大作中提到】

z****e
发帖数: 54598

猴屁股你这个不靠谱
加大l1 cache做db的不是没有人这么干
而且之前不纯用memory我觉得就是一个错误
搞得最后都当成batch来用
不全用memory的好处就是recover之后还可以找回来
那这种容灾机制现在连传统db都在面临着挑战，你看看newsql
里面就对这些东西提出了质疑
把太多资源浪费在这些其实发生概率很小的事情上
还不如不做，反正本来很多东西就不精确
而且以后都cloud了，你要多少内存，还不是就是一个按钮的事

【在 n******t 的大作中提到】

: 这东西就是骗钱的。。。
: 用memory，为啥不用L1 cache啊？lol

相关主题
● 有人收到过docker的offer么？	● 后Hadoop时代的大数据架构
● hadoop面试和学习总结	● 有大牛用Storm吗？
● [hortonworks面经] senior hadoop engineer	● 还有公司会在新项目选择mapReduce吗？
进入JobHunting版参与讨论

z****e
发帖数: 54598

没关系，这是简化版
java的东西就这样
一开始做一个东西出来，很复杂，一堆人都看晕了
后来出一个简化版的，很快就流行开来
ejb之后有spring
maven之后有gradle
soap之后有rest
xml之后有json
hadoop之后有spark
复杂的你会了，简单的就更不在话下了

【在 w**a 的大作中提到】

: 这，这，。。这让我们这些转行的，想拿hadoop做跳板，连hadoop都没摸热的人，怎么
: 活啊？

n******t
发帖数: 4406

这种做事方式，就是拿个巨糙的方案，包装成高大上，然后叫别人花钱买性能。
反正大部分corp IT的智力就那样，他们也许是可以忽悠一些人的。
in memory 的东西我N年前就搞过，没啥神奇的，有用肯定是有用，
但是也就是内存能搞的那点点东西，基本上没啥scalability.

【在 z****e 的大作中提到】

: 猴屁股你这个不靠谱
: 加大l1 cache做db的不是没有人这么干
: 而且之前不纯用memory我觉得就是一个错误
: 搞得最后都当成batch来用
: 不全用memory的好处就是recover之后还可以找回来
: 那这种容灾机制现在连传统db都在面临着挑战，你看看newsql
: 里面就对这些东西提出了质疑
: 把太多资源浪费在这些其实发生概率很小的事情上
: 还不如不做，反正本来很多东西就不精确
: 而且以后都cloud了，你要多少内存，还不是就是一个按钮的事

z****e
发帖数: 54598

我的思路跟你正相反
我觉得需要scalability的部分可以看作是优化
绝大多数job/task都不需要什么scalability
等需要scalability的时候再调整
简单版做事方式就这样
你看ejb一开始也是事无巨细，考虑得很周全
spring一开始就一单机版的ejb，根本不考虑分布式
没有scalability可言，爆火，因为大多数server单机就可以搞定了
大部分corp it智力就这样

【在 n******t 的大作中提到】

: 这种做事方式，就是拿个巨糙的方案，包装成高大上，然后叫别人花钱买性能。
: 反正大部分corp IT的智力就那样，他们也许是可以忽悠一些人的。
: in memory 的东西我N年前就搞过，没啥神奇的，有用肯定是有用，
: 但是也就是内存能搞的那点点东西，基本上没啥scalability.

t**********t
发帖数: 364

有人听说过REEF吗？mail list上看到貌似最近也进apache incubation了

【在 d********w 的大作中提到】

d********w
发帖数: 363

Interesting, 又是一个big data platform
http://www.reef-project.org/welcome/
大家看懂了可以介绍一下

【在 t**********t 的大作中提到】

: 有人听说过REEF吗？mail list上看到貌似最近也进apache incubation了

k****r
发帖数: 807

大牛们用sparkSQL吗？
请教hiveContext下parquet咋用，
有说hive只能用1.2版的，不知道是不是真的。
我正在用1.3版的hive怎么用不能create parquet形式的table。

p*****2
发帖数: 21240

看过不支持cassandra

【在 k****r 的大作中提到】

: 大牛们用sparkSQL吗？
: 请教hiveContext下parquet咋用，
: 有说hive只能用1.2版的，不知道是不是真的。
: 我正在用1.3版的hive怎么用不能create parquet形式的table。

v******l
发帖数: 60

mark

w****r
发帖数: 15252

我还没有需hadoop呢，就淘汰了，这个也太怪了，做计算机的赶不上时代

x*******6
发帖数: 262

mark

相关主题
● Pinterest Software Engineer position for Data/Hadoop	● 报几个offer
● big data software engineer或者data scientist 工作机会推荐	● MapR Technologies continue hiring a lot of positions
● 硅谷地区中型 Hot Startup List	● 请问怎样才能很好的学习hadoop (转载)
进入JobHunting版参与讨论

g****f
发帖数: 481

mark

z**********g
发帖数: 26

too many open files

t***j
发帖数: 2620

大牛们有update吗？

c********e
发帖数: 2726

mark,mark，谢谢大牛

d********w
发帖数: 363

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spark
## 介绍
Spark今年大放溢彩，Spark简单说就是内存计算（包含迭代式计算，DAG计算,流式计算
）框架，之前MapReduce因效率低下大家经常嘲笑，而Spark的出现让大家很清新。
* [Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍，算法实现仅有其1/10
或1/100]http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
* [浅谈Apache Spark的6个发光点]http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
* [Spark: Open Source Superstar Rewrites Future of Big Data]http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/
* [Spark is a really big deal for big data, and Cloudera gets it]http://gigaom.com/2013/10/28/spark-is-a-really-big-deal-for-big-data-and-cloudera-gets-it/
其实起名字也很重要，Spark就占了先机，CTO说[Where There’s Spark There’s
Fire: The State of Apache Spark in 2014]http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-state-apache-spark-2014/
## 起源
2010年Berkeley AMPLab，发表在[hotcloud]https://www.usenix.org/legacy/events
/hotcloud10/tech/full_papers/Zaharia.pdf)
是一个从学术界到工业界的成功典范，也吸引了顶级VC：Andreessen Horowitz的
注资
AMPLab这个实验室非常厉害，做大数据，云计算，跟工业界结合很紧密，之前就是他们
做mesos，hadoop online, crowddb, Twitter，Linkedin等很多知名公司都喜欢从
Berkeley找人，比如Twitter也专门开了门课程 [Analyzing Big Data with Twitter]http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个[BDAS]https://amplab.cs.berkeley.edu/software/ (Bad Ass)引以为傲: [
The lab that created Spark wants to speed up everything, including cures for
cancer]http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-to-speed-up-everything-including-cures-for-cancer/
在2013年，这些大牛从Berkeley AMPLab出去成立了Databricks，半年就做了2次summit
参会1000人，引无数Hadoop大佬尽折腰，大家看一下Summit的sponsor
，所有hadoop厂商全来了，并且各个技术公司也在巴结，cloudrea, hortonworks,
mapr, datastax, yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了
Hadoop本身，要推出商业化产品Cloud。
## Spark人物
* [Ion Stoica]http://www.cs.berkeley.edu/~istoica/: Berkeley教授，AMPLab 领军
* [Matei Zaharia]http://people.csail.mit.edu/matei/: 天才，MIT助理教授
* [Reynold Xin]http://www.eecs.berkeley.edu/~rxin/ Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发，并在Spark之上编写了Shark和GraphX两个开源框架。他和AMPLab同僚共同创建了Databricks公司
* [Andy Konwinski]http://andykonwinski.com/
* [Haoyuan Li]http://www.cs.berkeley.edu/~haoyuan/
* [Patrick Wendell]http://www.pwendell.com/
* [Xiangrui Meng]http://www.stanford.edu/~mengxr/
* [Paco Nathan]http://liber118.com/pxn/
* [Lian Cheng]http://blog.liancheng.info/
* [Hossein Falaki]http://www.falaki.net/
* [Mosharaf Chowdhury]http://www.mosharaf.com/
* [Zongheng Yang]http://geotakucovi.com/
* [Yin Huai]http://web.cse.ohio-state.edu/~huai/index.html
* [Committers]https://cwiki.apache.org/confluence/display/SPARK/Committers
## Spark基本概念
1. RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for
In-Memory Cluster Computing弹性分布式数据集。
2. Operation——作用于RDD的各种操作分为transformation和action。
3. Job——作业，一个JOB包含多个RDD及作用于相应RDD上的各种operation。
4. Stage——一个作业分为多个阶段。
5. Partition——数据分区，一个RDD中的数据可以分成多个不同的区。
6. DAG——Directed Acycle graph，有向无环图，反应RDD之间的依赖关系。
7. Narrow dependency——窄依赖，子RDD依赖于父RDD中固定的data partition。
8. Wide Dependency——宽依赖，子RDD对父RDD中的所有data partition都有依赖。
9. Caching Managenment——缓存管理，对RDD的中间计算结果进行缓存管理以加快整
体的处理速度。
目前还有一些子项目，比如 Spark SQL, [Spark Streaming]http://spark.apache.org/streaming/, MLLib, Graphx
工业界也引起广泛兴趣，国内Taobao, baidu也开始使用：[Powered by Spark](https:
//cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark)
Apache Spark支持4种分布式部署方式，分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
比如[AWS]http://www.getblueshift.com/blog/?p=56
## Spark Summit
* [2014 Summit]http://spark-summit.org/2014/
* [取代而非补充，Spark Summit 2014精彩回顾]http://www.csdn.net/article/2014-07-17/2820713
* [拥抱Spark，机遇无限——Spark Summit 2013精彩回顾]http://www.csdn.net/article/2014-01-09/2818085-spark-summit-2013
* [Databricks Cloud Demo]http://databricks.com/cloud 今年最叫好的demo是Dtabricks Cloud, 把Twitter上面实时收集的数据做作为machine learning素材，用类似IPython notebook，可视化呈现惊艳，而搭建整个sampling系统就花了20分钟！
## 培训资料和视频
* [官方文档]http://spark.apache.org/docs/latest/
* [Databricks Blog]http://databricks.com/blog
* [Summit Training]http://spark-summit.org/2014/training
* [Databricks upcoming training]http://databricks.com/training
* [Stanford Spark Class]http://stanford.edu/~rezab/sparkclass/
* [CSDN Spark专栏]http://spark.csdn.net/
10月份还有个培训在湾区的培训，只不过3天就要1500刀，看来做个讲师也不错:)
## 第三方项目
* [Web interactive UI on Hadoop/Spark]http://gethue.com/
* [Spark on cassandra]http://planetcassandra.org/getting-started-with-apache-spark-and-cassandra/
* [Spark Cassandra Connector]https://github.com/datastax/spark-cassandra-
connector)
* [Calliope]http://tuplejump.github.io/calliope/
* [H2O + Spark]http://databricks.com/blog/2014/06/30/sparkling-water-h20-spark
* Shark - Hive and SQL on top of Spark
* MLbase - Machine Learning research project on top of Spark
* BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
* GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
* Apache Mesos - Cluster management system that supports running Spark
* Tachyon - In memory storage system that supports running Spark
* Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
* OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
* SparkR - R frontend for Spark
* Spark Job Server - REST interface for managing and submitting Spark jobs
on the same cluster.
## 相关参考资料
* [Resilient Distributed Datasets]https://www.usenix.org/system/files/
conference/nsdi12/nsdi12-final138.pdf)
* [spark on yarn的技术挑战]http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/
* [Hive原理与不足]http://www.ccplat.com/?p=1035
* [Impala/Hive现状分析与前景展望]http://yanbohappy.sinaapp.com/?p=220
* [Apache Hadoop: How does Impala compare to Shark]http://www.quora.com/Apache-Hadoop/How-does-Impala-compare-to-Shark
* [MapReduce：一个巨大的倒退]http://t.cn/zQLFnWs
* [Google Dremel 原理 — 如何能3秒分析1PB]http://www.yankay.com/google-dremel-rationale/
* [Isn’t Cloudera Impala doing the same job as Apache Drill incubator
project?]http://www.quora.com/Cloudera-Impala/Isnt-Cloudera-Impala-doing-the-same-job-as-Apache-Drill-incubator-project
* [Shark]https://github.com/amplab/shark/wiki
* [Big Data Benchmark]https://amplab.cs.berkeley.edu/benchmark/
* [How does Impala compare to Shark]http://www.quora.com/Apache-Hadoop/How-does-Impala-compare-to-Shark
* [EMC讲解Hawq SQL性能：左手Hive右手Impala]http://stor-age.zdnet.com.cn/stor-age/2013/0308/2147607.shtml
* [Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark]http://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html
* [Cloudera: Impala’s it for interactive SQL on Hadoop; everything else
will move to Spark]http://gigaom.com/2014/07/03/cloudera-impalas-it-for-interactive-sql-on-hadoop-but-everything-else-will-move-to-spark/
* [Databricks – an interesting plan for Spark, Shark, and Spark SQL]http://www.simba.com/data-terms-applications/hadoop/databricks-interesting-plan-spark-shark-spark-sql
* [Apache Storm vs Spark Streaming]http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming

t**r
发帖数: 3428

这玩意以后要kill掉hadoop了？

d********w
发帖数: 363

是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

【在 t**r 的大作中提到】

: 这玩意以后要kill掉hadoop了？

z****e
发帖数: 54598

re这个，spark的学习材料期待已久

z****e
发帖数: 54598

spark自身有一个ml的pkg
以后估计就按照这个往上搞了
其他ml的pkg估计都不怎么用了

t**r
发帖数: 3428

哈哈。那我这刚开始转行搞hadoop的可惨了

【在 d********w 的大作中提到】

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

相关主题
● 请问怎样才能很好的学习hadoop (转载)	● 2015年硅谷最火的高科技创业公司都有哪些？
● Data bricks怎样？	● Spark这个东西真的有很多公司在用吗。。？
● 做Spark前途咋样啊？	● Cloudera这个公司怎么样
进入JobHunting版参与讨论

z****e
发帖数: 54598

替换掉mapreduce这些
但是hdfs还是会用hadoop的

【在 d********w 的大作中提到】

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

y*c
发帖数: 904

赞

【在 z****e 的大作中提到】

: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

s***i
发帖数: 503

赞！收藏了。

e*****s
发帖数: 121

赞，今年hadoop summit基本上就两个主题，Hadoop 2.0和spark.

★ 发自iPhone App: ChineseWeb 8.7

【在 d********w 的大作中提到】

: 基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
: 属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少

z****e
发帖数: 54598

感觉spark出来之后
storm还有其他ml的pkg尤其是python那几个都挺危险的
不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

e*****s
发帖数: 121

还有mahout, 太难用了。

★ 发自iPhone App: ChineseWeb 8.7

【在 z****e 的大作中提到】

: 感觉spark出来之后
: storm还有其他ml的pkg尤其是python那几个都挺危险的
: 不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

p*****2
发帖数: 21240

cassandra就可以了吧？

【在 z****e 的大作中提到】

: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

p*****2
发帖数: 21240

感觉未来是cassandra+spark的
hadoop可以跳过了

【在 d********w 的大作中提到】

z****e
发帖数: 54598

可以吧
但是hbase作为一个cp系统的代表，还是也了解一下比较好
毕竟c*是ap系统

【在 p*****2 的大作中提到】

: cassandra就可以了吧？

z****e
发帖数: 54598

lol
搞不好以后hadoop这么一大堆项目
最后剩下的就是还没毕业的hbase

【在 p*****2 的大作中提到】

: 感觉未来是cassandra+spark的
: hadoop可以跳过了

相关主题
● 大数据公司Databricks内推	● hadoop面试和学习总结
● 面试犯2了	● [hortonworks面经] senior hadoop engineer
● 有人收到过docker的offer么？	● 后Hadoop时代的大数据架构
进入JobHunting版参与讨论

z****e
发帖数: 54598

二爷你用spark用scala吗？

【在 p*****2 的大作中提到】

: cassandra就可以了吧？

p*****2
发帖数: 21240

hbase也不好用

【在 z****e 的大作中提到】

: lol
: 搞不好以后hadoop这么一大堆项目
: 最后剩下的就是还没毕业的hbase

p*****2
发帖数: 21240

我用scala

【在 z****e 的大作中提到】

: 二爷你用spark用scala吗？

z****e
发帖数: 54598

: 我用scala

p*****2
发帖数: 21240

: hoho
: 还好今天看了一下这个贴
: 下一步先不用hadoop了，上spark和cassandra
: 之前一直犹豫，觉得hadoop有些太重了
: 看来拖延阵偶尔也还是有点好处的

z****e
发帖数: 54598

靠谱

【在 p*****2 的大作中提到】

f******n
发帖数: 279

mark

d********w
发帖数: 363

Databricks CTO 说，现在feature呼声最大的是在Spark上加上Deep learning

【在 z****e 的大作中提到】

: spark自身有一个ml的pkg
: 以后估计就按照这个往上搞了
: 其他ml的pkg估计都不怎么用了

g*********e
发帖数: 14401

mark

z****e
发帖数: 54598

是啊，如果伯克利能开一个ml课程based on这个东西的话
那就太好了，比matlab那个实用太多

【在 d********w 的大作中提到】

: Databricks CTO 说，现在feature呼声最大的是在Spark上加上Deep learning

相关主题
● 有大牛用Storm吗？	● big data software engineer或者data scientist 工作机会推荐
● 还有公司会在新项目选择mapReduce吗？	● 硅谷地区中型 Hot Startup List
● Pinterest Software Engineer position for Data/Hadoop	● 报几个offer
进入JobHunting版参与讨论

d********w
发帖数: 363

应该会的， Berkeley那么多ML牛人，分分钟搞个Lib出来

【在 z****e 的大作中提到】

: 是啊，如果伯克利能开一个ml课程based on这个东西的话
: 那就太好了，比matlab那个实用太多

Y*****y
发帖数: 361

: 是有可能的，世界变化太快，谁还受得了Hadoop那么慢！

c***z
发帖数: 6348

Y*****y
发帖数: 361

c***z
发帖数: 6348

明白了，多谢指点！

【在 Y*****y 的大作中提到】

P********e
发帖数: 387

lz你是不是快去databricks了啊~

z****e
发帖数: 54598

D*******7
发帖数: 61

zan

【在 d********w 的大作中提到】

h*****u
发帖数: 204

赞！
大牛觉得H2o怎么样啊？
https://github.com/0xdata/h2o

【在 d********w 的大作中提到】

h*****a
发帖数: 1718

100

Performance上面有什么明显的提升么？公司里面是不是能一个人很快搞定不是最重要
的考量吧。

【在 p*****2 的大作中提到】

相关主题
● MapR Technologies continue hiring a lot of positions	● 做Spark前途咋样啊？
● 请问怎样才能很好的学习hadoop (转载)	● 2015年硅谷最火的高科技创业公司都有哪些？
● Data bricks怎样？	● Spark这个东西真的有很多公司在用吗。。？
进入JobHunting版参与讨论

d********w
发帖数: 363

101

d*********s
发帖数: 777

102

mark

r****c
发帖数: 2585

103

一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

【在 p*****2 的大作中提到】

p*****2
发帖数: 21240

104

听说10倍到百倍的提高。
我觉得很快搞定还是很重要的。很多公司不会给你那么多时间看效果的。能先上马重要
。

【在 h*****a 的大作中提到】

: Performance上面有什么明显的提升么？公司里面是不是能一个人很快搞定不是最重要
: 的考量吧。

p*****2
发帖数: 21240

105

: 一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

z****e
发帖数: 54598

106

: 一个人是差比较大，如果一个团队而且是有经验的话还是性能和feature更重要

p*****2
发帖数: 21240

107

确实现在常常一个人要做一个team的work所以技术选型很重要
我看很多大公司出来使用的技术很heavy，自己干着也很累

【在 z****e 的大作中提到】

b*****t
发帖数: 296

108

b*****t
发帖数: 296

109

还有就是那些炫目的数字，快多少倍。没有全面客观的比较，对于一个critical
thinking的PhD来说，那些数字只是corner case。

n******t
发帖数: 4406

110

这东西就是骗钱的。。。
用memory，为啥不用L1 cache啊？lol

【在 d********w 的大作中提到】

相关主题
● Spark这个东西真的有很多公司在用吗。。？	● 面试犯2了
● Cloudera这个公司怎么样	● 有人收到过docker的offer么？
● 大数据公司Databricks内推	● hadoop面试和学习总结
进入JobHunting版参与讨论

o**********e
发帖数: 18403

111

zan!

w**a
发帖数: 487

112

这，这，。。这让我们这些转行的，想拿hadoop做跳板，连hadoop都没摸热的人，怎么
活啊？

【在 d********w 的大作中提到】

z****e
发帖数: 54598

113

: 这东西就是骗钱的。。。
: 用memory，为啥不用L1 cache啊？lol

z****e
发帖数: 54598

114

: 这，这，。。这让我们这些转行的，想拿hadoop做跳板，连hadoop都没摸热的人，怎么
: 活啊？

n******t
发帖数: 4406

115

z****e
发帖数: 54598

116

d********w
发帖数: 363

117

Interesting, 又是一个big data platform
http://www.reef-project.org/welcome/
大家看懂了可以介绍一下

【在 t**********t 的大作中提到】

: 有人听说过REEF吗？mail list上看到貌似最近也进apache incubation了

k****r
发帖数: 807

118

大牛们用sparkSQL吗？
请教hiveContext下parquet咋用，
有说hive只能用1.2版的，不知道是不是真的。
我正在用1.3版的hive怎么用不能create parquet形式的table。

p*****2
发帖数: 21240

119

看过不支持cassandra

【在 k****r 的大作中提到】

v******l
发帖数: 60

120

mark

相关主题
● [hortonworks面经] senior hadoop engineer	● 还有公司会在新项目选择mapReduce吗？
● 后Hadoop时代的大数据架构	● Pinterest Software Engineer position for Data/Hadoop
● 有大牛用Storm吗？	● big data software engineer或者data scientist 工作机会推荐
进入JobHunting版参与讨论

w****r
发帖数: 15252

121

我还没有需hadoop呢，就淘汰了，这个也太怪了，做计算机的赶不上时代

x*******6
发帖数: 262

122

mark

g****f
发帖数: 481

123

mark

z**********g
发帖数: 26

124

too many open files

t***j
发帖数: 2620

125

大牛们有update吗？

c********e
发帖数: 2726

126

mark,mark，谢谢大牛

s******y
发帖数: 936

127

mark

t**r
发帖数: 3428

128

董老师现在海归了

r*m
发帖数: 50

129

Mark

(共1页)

进入JobHunting版参与讨论

相关主题
● Pinterest Software Engineer position for Data/Hadoop	● 2015年硅谷最火的高科技创业公司都有哪些？
● big data software engineer或者data scientist 工作机会推荐	● Spark这个东西真的有很多公司在用吗。。？
● 硅谷地区中型 Hot Startup List	● Cloudera这个公司怎么样
● 报几个offer	● 大数据公司Databricks内推
● MapR Technologies continue hiring a lot of positions	● 面试犯2了
● 请问怎样才能很好的学习hadoop (转载)	● 有人收到过docker的offer么？
● Data bricks怎样？	● hadoop面试和学习总结
● 做Spark前途咋样啊？	● [hortonworks面经] senior hadoop engineer

相关话题的讨论汇总
话题: spark话题: hadoop话题: apache话题: summit话题: berkeley

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天