由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - hadoop面试和学习总结
相关主题
[hortonworks面经] senior hadoop engineerHortonworks filed ipo
MapR Technologies continue hiring a lot of positionsLinkedin vs Salesforce vs Early Startup?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?请问一下大家对MapR这家公司怎么看?
面试犯2了报几个offer
弱问现在弯曲哪里收普通java屌丝?[cloudera面试] senior engineer
有人收到过docker的offer么?hortonworks这个公司如何 (转载)
请问怎样才能很好的学习hadoop (转载)求问hadoop学习资料
Cloudera这个公司怎么样WalmartLabs vs Twitter vs Hortonworks
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: mark话题: cloudera话题: cassandra
进入JobHunting版参与讨论
1 (共1页)
d********w
发帖数: 363
1
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b;
h********e
发帖数: 1972
2
interview question: what is Hadoop...
Answer: A yellow toy elephant..
H***e
发帖数: 476
3
好文。
namenode: avoid single point of failure
是什么意思? 现在nn不是还是single point of failure吗

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

d********w
发帖数: 363
4
呵呵,apache的项目就是喜欢用动物,还有pig,hive logo

【在 h********e 的大作中提到】
: interview question: what is Hadoop...
: Answer: A yellow toy elephant..

h********e
发帖数: 1972
5
I heard that it is because the first guy who made the hadoop.. his son has a
yellow elephant named hadoop..
d********w
发帖数: 363
6
现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

【在 H***e 的大作中提到】
: 好文。
: namenode: avoid single point of failure
: 是什么意思? 现在nn不是还是single point of failure吗

H***e
发帖数: 476
7
嗯。看你那句话,我还以为解决了呢 呵呵

【在 d********w 的大作中提到】
: 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
: 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
: 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

h********e
发帖数: 1972
8
最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
还原的时候传输量少.应该也是fb在做的一个

【在 d********w 的大作中提到】
: 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
: 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
: 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

P**********c
发帖数: 3417
9
很想like一下。mitbbs也应该与时俱进弄个like按钮。

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

e***s
发帖数: 799
10
mark!
相关主题
有人收到过docker的offer么?Hortonworks filed ipo
请问怎样才能很好的学习hadoop (转载)Linkedin vs Salesforce vs Early Startup?
Cloudera这个公司怎么样请问一下大家对MapR这家公司怎么看?
进入JobHunting版参与讨论
e***l
发帖数: 710
11
问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
直接提供运行环境的地方,比如Amazon?
d********w
发帖数: 363
12
它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
么,需要花钱的。
这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
,公司需要,这样才有可能学习到实际的东西。

【在 e***l 的大作中提到】
: 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
: 直接提供运行环境的地方,比如Amazon?

t********e
发帖数: 143
13
Thank you very much! I am very much interested to learn Hadoop.Should we
form a group to share learning experiences?
L*****k
发帖数: 327
14
great!

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

B*******1
发帖数: 2454
15
So how to practice when learning if not working in a big company or big lab?

【在 d********w 的大作中提到】
: 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
: 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
: amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
: 么,需要花钱的。
: 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
: ,公司需要,这样才有可能学习到实际的东西。

d********w
发帖数: 363
16
知识是可以学,但可能会质疑你没有接触过真正的大数据,没有实际的经验,这也是我
经常遇到的问题,他们就喜欢问,你的数据集是哪里的,有多大,cluster大小,如何
处理高并发,高吞吐,low latency (real time), disaster recovery,数据还要
consistency, 这样问是不公平的,没有那个系统是万能的,hadoop也有很多应用限制
,它本意就是做批处理的,sequence读写,我也经常解释cap理论,你要实现某个特性
必然要牺牲别的,这也是为啥那么多nosql系统的出现,每个都号称自己scalable, 但
其实都是有瓶颈的。

lab?

【在 B*******1 的大作中提到】
: So how to practice when learning if not working in a big company or big lab?
n**0
发帖数: 136
17
lz很牛呀,最近面了不少公司嘛,有许多offer了吧

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

A*****i
发帖数: 1420
18
谁有电子版共享一下
c********l
发帖数: 8138
19
楼主好人

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

m*p
发帖数: 1331
20
Cassandra?

【在 h********e 的大作中提到】
: 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
: 还原的时候传输量少.应该也是fb在做的一个

相关主题
报几个offer求问hadoop学习资料
[cloudera面试] senior engineerWalmartLabs vs Twitter vs Hortonworks
hortonworks这个公司如何 (转载)Data bricks怎样?
进入JobHunting版参与讨论
d********w
发帖数: 363
21
我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
删除就起诉我侵权。

【在 A*****i 的大作中提到】
: 谁有电子版共享一下
s*********d
发帖数: 2406
d********w
发帖数: 363
23
这是第一版的

【在 s*********d 的大作中提到】
: http://net.pku.edu.cn/~course/cs402/2011/book/2009-Book-Hadoop%
x*h
发帖数: 757
24
楼主都拿到了哪家的offer?

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

c******n
发帖数: 710
25
多谢
B******5
发帖数: 4676
26
有第二版?求link~

【在 d********w 的大作中提到】
: 这是第一版的
d********w
发帖数: 363
27
给我你的邮箱

【在 B******5 的大作中提到】
: 有第二版?求link~
c**q
发帖数: 94
28
同求一份。
c******[email protected]
R***c
发帖数: 648
29
Please send me a copy: y*********[email protected]
s*******l
发帖数: 3691
30
一般的hadoop开发,大概南加什么行情?
相关主题
做Spark前途咋样啊?MapR Technologies continue hiring a lot of positions
BigData Senior Data Engineer @Endurance/ConstantContact around Boston area还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
[hortonworks面经] senior hadoop engineer面试犯2了
进入JobHunting版参与讨论
h*******g
发帖数: 37
31
Thank you very much! Thank you!
Please send me a copy:
d*******[email protected]
C**5
发帖数: 202
32
同求book chenchendallas @ hotmail.com
J***n
发帖数: 391
33
3x.
j*********[email protected]

【在 d********w 的大作中提到】
: 给我你的邮箱
d********w
发帖数: 363
34
想不到大家这么热情,已经收到20分个求书的请求了,我快招架不住了,
http://hotfile.com/dl/148436456/dd194f2/Hadoop_The_Definitive_G
不知道我上传到这有没有问题呢?

【在 J***n 的大作中提到】
: 3x.
: j*********[email protected]

k*****u
发帖数: 1688
35
re
学习一下

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

g***i
发帖数: 4272
36
http://filepost.com/files/9dea179a/Oreilly.Hadoop.The.Definitiv
这还有个第三版,不过是early release
a******e
发帖数: 46
37
赞,re
m***n
发帖数: 2154
38
同求,做长远打算了。
w************[email protected]
thank you
P***P
发帖数: 1387
39
Jeffrey Dean牛啊
l**d
发帖数: 746
40
m******[email protected]
Thank you!
顺便问一下,老大有cloudera, hortonworks的面经么?

【在 d********w 的大作中提到】
: 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
: 删除就起诉我侵权。

相关主题
面试犯2了请问怎样才能很好的学习hadoop (转载)
弱问现在弯曲哪里收普通java屌丝?Cloudera这个公司怎么样
有人收到过docker的offer么?Hortonworks filed ipo
进入JobHunting版参与讨论
d********w
发帖数: 363
41
我都发了啊,你去搜搜

【在 l**d 的大作中提到】
: m******[email protected]
: Thank you!
: 顺便问一下,老大有cloudera, hortonworks的面经么?

l**d
发帖数: 746
42
哦,不好意思,没看完回帖就骚扰你了,谢谢分享!

【在 d********w 的大作中提到】
: 我都发了啊,你去搜搜
q*******h
发帖数: 82
43
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
d********w
发帖数: 363
44
你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况

【在 q*******h 的大作中提到】
: Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
: 入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
: 特性还是很无敌的。
: 不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
: 没有关系吧。

t*******7
发帖数: 108
45
cassandra 需要大量调试参数设置,否则性能很差。而且经常丢失一小部分数据
b**********e
发帖数: 61
46
could I have one please
b********[email protected]
many thx

【在 d********w 的大作中提到】
: 我都发了啊,你去搜搜
c********w
发帖数: 2438
47
谢谢LZ,大牛!
d********w
发帖数: 363
48
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b;
h********e
发帖数: 1972
49
interview question: what is Hadoop...
Answer: A yellow toy elephant..
H***e
发帖数: 476
50
好文。
namenode: avoid single point of failure
是什么意思? 现在nn不是还是single point of failure吗

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

相关主题
Linkedin vs Salesforce vs Early Startup?[cloudera面试] senior engineer
请问一下大家对MapR这家公司怎么看?hortonworks这个公司如何 (转载)
报几个offer求问hadoop学习资料
进入JobHunting版参与讨论
d********w
发帖数: 363
51
呵呵,apache的项目就是喜欢用动物,还有pig,hive logo

【在 h********e 的大作中提到】
: interview question: what is Hadoop...
: Answer: A yellow toy elephant..

h********e
发帖数: 1972
52
I heard that it is because the first guy who made the hadoop.. his son has a
yellow elephant named hadoop..
d********w
发帖数: 363
53
现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

【在 H***e 的大作中提到】
: 好文。
: namenode: avoid single point of failure
: 是什么意思? 现在nn不是还是single point of failure吗

H***e
发帖数: 476
54
嗯。看你那句话,我还以为解决了呢 呵呵

【在 d********w 的大作中提到】
: 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
: 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
: 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

h********e
发帖数: 1972
55
最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
还原的时候传输量少.应该也是fb在做的一个

【在 d********w 的大作中提到】
: 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
: 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
: 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。

P**********c
发帖数: 3417
56
很想like一下。mitbbs也应该与时俱进弄个like按钮。

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

e***s
发帖数: 799
57
mark!
e***l
发帖数: 710
58
问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
直接提供运行环境的地方,比如Amazon?
d********w
发帖数: 363
59
它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
么,需要花钱的。
这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
,公司需要,这样才有可能学习到实际的东西。

【在 e***l 的大作中提到】
: 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
: 直接提供运行环境的地方,比如Amazon?

t********e
发帖数: 143
60
Thank you very much! I am very much interested to learn Hadoop.Should we
form a group to share learning experiences?
相关主题
WalmartLabs vs Twitter vs HortonworksBigData Senior Data Engineer @Endurance/ConstantContact around Boston area
Data bricks怎样?[hortonworks面经] senior hadoop engineer
做Spark前途咋样啊?MapR Technologies continue hiring a lot of positions
进入JobHunting版参与讨论
L*****k
发帖数: 327
61
great!

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

B*******1
发帖数: 2454
62
So how to practice when learning if not working in a big company or big lab?

【在 d********w 的大作中提到】
: 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
: 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
: amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
: 么,需要花钱的。
: 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
: ,公司需要,这样才有可能学习到实际的东西。

d********w
发帖数: 363
63
知识是可以学,但可能会质疑你没有接触过真正的大数据,没有实际的经验,这也是我
经常遇到的问题,他们就喜欢问,你的数据集是哪里的,有多大,cluster大小,如何
处理高并发,高吞吐,low latency (real time), disaster recovery,数据还要
consistency, 这样问是不公平的,没有那个系统是万能的,hadoop也有很多应用限制
,它本意就是做批处理的,sequence读写,我也经常解释cap理论,你要实现某个特性
必然要牺牲别的,这也是为啥那么多nosql系统的出现,每个都号称自己scalable, 但
其实都是有瓶颈的。

lab?

【在 B*******1 的大作中提到】
: So how to practice when learning if not working in a big company or big lab?
n**0
发帖数: 136
64
lz很牛呀,最近面了不少公司嘛,有许多offer了吧

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

A*****i
发帖数: 1420
65
谁有电子版共享一下
c********l
发帖数: 8138
66
楼主好人

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

m*p
发帖数: 1331
67
Cassandra?

【在 h********e 的大作中提到】
: 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
: 还原的时候传输量少.应该也是fb在做的一个

d********w
发帖数: 363
68
我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
删除就起诉我侵权。

【在 A*****i 的大作中提到】
: 谁有电子版共享一下
s*********d
发帖数: 2406
d********w
发帖数: 363
70
这是第一版的

【在 s*********d 的大作中提到】
: http://net.pku.edu.cn/~course/cs402/2011/book/2009-Book-Hadoop%
相关主题
MapR Technologies continue hiring a lot of positions弱问现在弯曲哪里收普通java屌丝?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?有人收到过docker的offer么?
面试犯2了请问怎样才能很好的学习hadoop (转载)
进入JobHunting版参与讨论
x*h
发帖数: 757
71
楼主都拿到了哪家的offer?

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

c******n
发帖数: 710
72
多谢
B******5
发帖数: 4676
73
有第二版?求link~

【在 d********w 的大作中提到】
: 这是第一版的
d********w
发帖数: 363
74
给我你的邮箱

【在 B******5 的大作中提到】
: 有第二版?求link~
c**q
发帖数: 94
75
同求一份。
c******[email protected]
R***c
发帖数: 648
76
Please send me a copy: y*********[email protected]
s*******l
发帖数: 3691
77
一般的hadoop开发,大概南加什么行情?
h*******g
发帖数: 37
78
Thank you very much! Thank you!
Please send me a copy:
d*******[email protected]
J***n
发帖数: 391
79
3x.
j*********[email protected]

【在 d********w 的大作中提到】
: 给我你的邮箱
d********w
发帖数: 363
80
想不到大家这么热情,已经收到20分个求书的请求了,我快招架不住了,
http://hotfile.com/dl/148436456/dd194f2/Hadoop_The_Definitive_G
不知道我上传到这有没有问题呢?

【在 J***n 的大作中提到】
: 3x.
: j*********[email protected]

相关主题
Cloudera这个公司怎么样请问一下大家对MapR这家公司怎么看?
Hortonworks filed ipo报几个offer
Linkedin vs Salesforce vs Early Startup?[cloudera面试] senior engineer
进入JobHunting版参与讨论
k*****u
发帖数: 1688
81
re
学习一下

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

g***i
发帖数: 4272
82
http://filepost.com/files/9dea179a/Oreilly.Hadoop.The.Definitiv
这还有个第三版,不过是early release
a******e
发帖数: 46
83
赞,re
m***n
发帖数: 2154
84
同求,做长远打算了。
w************[email protected]
thank you
P***P
发帖数: 1387
85
Jeffrey Dean牛啊
l**d
发帖数: 746
86
m******[email protected]
Thank you!
顺便问一下,老大有cloudera, hortonworks的面经么?

【在 d********w 的大作中提到】
: 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
: 删除就起诉我侵权。

d********w
发帖数: 363
87
我都发了啊,你去搜搜

【在 l**d 的大作中提到】
: m******[email protected]
: Thank you!
: 顺便问一下,老大有cloudera, hortonworks的面经么?

l**d
发帖数: 746
88
哦,不好意思,没看完回帖就骚扰你了,谢谢分享!

【在 d********w 的大作中提到】
: 我都发了啊,你去搜搜
q*******h
发帖数: 82
89
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
d********w
发帖数: 363
90
你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况

【在 q*******h 的大作中提到】
: Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
: 入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
: 特性还是很无敌的。
: 不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
: 没有关系吧。

相关主题
hortonworks这个公司如何 (转载)Data bricks怎样?
求问hadoop学习资料做Spark前途咋样啊?
WalmartLabs vs Twitter vs HortonworksBigData Senior Data Engineer @Endurance/ConstantContact around Boston area
进入JobHunting版参与讨论
t*******7
发帖数: 108
91
cassandra 需要大量调试参数设置,否则性能很差。而且经常丢失一小部分数据
b**********e
发帖数: 61
92
could I have one please
b********[email protected]
many thx

【在 d********w 的大作中提到】
: 我都发了啊,你去搜搜
c********w
发帖数: 2438
93
谢谢LZ,大牛!
a*****s
发帖数: 1121
94
thanks。不知道楼主打算去哪家???俺是做Hadoop 调度研究的PhD。自己管大概200
个核的集群。
a*****s
发帖数: 1121
95
呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣,
说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。
a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。

【在 d********w 的大作中提到】
: 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
: 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
: amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
: 么,需要花钱的。
: 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
: ,公司需要,这样才有可能学习到实际的东西。

d********w
发帖数: 363
96
ok,你把我的帖子全把出来了。。。

【在 a*****s 的大作中提到】
: 呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣,
: 说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。
: a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。

a****a
发帖数: 186
97
谢谢lz分享,另外惹一下这位好心人。

【在 a*****s 的大作中提到】
: 呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣,
: 说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。
: a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。

A********a
发帖数: 1846
98
赞!这个好,正看的一头雾水。
q*******h
发帖数: 82
99
不好意思,没用过论坛的功能,回答的可能比较晚了。
Cassandra是要求反映快,输出大
Hbase反映一直很慢,做数据仓库用的。用途好像真不一样。

【在 d********w 的大作中提到】
: 你比较过cassandra和hbase么
: 我项目中用到hbase,但目前感觉hbase问题很多,
: 1. 非常吃内存,16G内存都不够
: 2. 在高并发下,region server 失去相应,不得不手工重启region server
: 现在也想调研cassandra的性能情况

E*******0
发帖数: 465
100
谢谢搂主分享。
相关主题
[hortonworks面经] senior hadoop engineer面试犯2了
MapR Technologies continue hiring a lot of positions弱问现在弯曲哪里收普通java屌丝?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?有人收到过docker的offer么?
进入JobHunting版参与讨论
Z*****Z
发帖数: 723
101
赞分享

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

P********e
发帖数: 387
102
mark

随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr........
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

l****c
发帖数: 782
103
mark,
will learn
w****x
发帖数: 2483
104
有速成的吗?
l****c
发帖数: 782
105
hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)

【在 w****x 的大作中提到】
: 有速成的吗?
t****a
发帖数: 1212
106
谢谢楼主分享。
Q*******e
发帖数: 939
107
隔行如隔山啊
t********e
发帖数: 1169
108
要把paxos吃透
c******t
发帖数: 391
109
多谢分享!
m*********n
发帖数: 119
110
有速成的吗?
我没有F,不是大牛

【在 l****c 的大作中提到】
: hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
相关主题
有人收到过docker的offer么?Hortonworks filed ipo
请问怎样才能很好的学习hadoop (转载)Linkedin vs Salesforce vs Early Startup?
Cloudera这个公司怎么样请问一下大家对MapR这家公司怎么看?
进入JobHunting版参与讨论
i****y
发帖数: 58
111
mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
r******g
发帖数: 138
112
楼主是买的书吗还是有pdf文档?可以分享吗?谢谢
h****n
发帖数: 1093
113
深有同感。。。
上次面被问了一个有关数据库的系统设计,直接慌了,唉,还是基础不好

【在 i****y 的大作中提到】
: mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
l****o
发帖数: 315
114
dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
a********m
发帖数: 15480
115
赞。该骂克!

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

w****x
发帖数: 2483
116

Dong fei是一个我很仰慕的大牛

【在 l****o 的大作中提到】
: dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
C*******n
发帖数: 24
117
对这个很感兴趣,多谢楼主分享经验。
另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
验,只是自学的时候做个toy project他们也可以要?
i*o
发帖数: 149
118
paxos 太底层了吧。

【在 t********e 的大作中提到】
: 要把paxos吃透
d********w
发帖数: 363
119
自学也可以啊,可以捣鼓ec2虚拟机上搭建集群,跑一些job。不过很多时候面试官问你
实际的经验,不喜欢纸上谈兵,大数据量和cluster是很难个人玩的。

【在 C*******n 的大作中提到】
: 对这个很感兴趣,多谢楼主分享经验。
: 另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
: 验,只是自学的时候做个toy project他们也可以要?

k****r
发帖数: 807
120
大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
道他们会不会介意呢?能提供些经验吗?谢谢
相关主题
报几个offer求问hadoop学习资料
[cloudera面试] senior engineerWalmartLabs vs Twitter vs Hortonworks
hortonworks这个公司如何 (转载)Data bricks怎样?
进入JobHunting版参与讨论
d********w
发帖数: 363
121
既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
本的coding,我被问过实现读写锁,当时也忘了。

【在 k****r 的大作中提到】
: 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
: 道他们会不会介意呢?能提供些经验吗?谢谢

l****o
发帖数: 315
122
你们两位我都很仰慕...

【在 w****x 的大作中提到】
:
: Dong fei是一个我很仰慕的大牛

k****r
发帖数: 807
123
Thank you so much.
能展开说下实现读写锁吗,谢谢。

【在 d********w 的大作中提到】
: 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
: 本的coding,我被问过实现读写锁,当时也忘了。

l****c
发帖数: 782
124
mark,
will learn
w****x
发帖数: 2483
125
有速成的吗?
l****c
发帖数: 782
126
hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)

【在 w****x 的大作中提到】
: 有速成的吗?
t****a
发帖数: 1212
127
谢谢楼主分享。
t********e
发帖数: 1169
128
要把paxos吃透
c******t
发帖数: 391
129
多谢分享!
m*********n
发帖数: 119
130
有速成的吗?
我没有F,不是大牛

【在 l****c 的大作中提到】
: hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
相关主题
做Spark前途咋样啊?MapR Technologies continue hiring a lot of positions
BigData Senior Data Engineer @Endurance/ConstantContact around Boston area还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
[hortonworks面经] senior hadoop engineer面试犯2了
进入JobHunting版参与讨论
i****y
发帖数: 58
131
mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
r******g
发帖数: 138
132
楼主是买的书吗还是有pdf文档?可以分享吗?谢谢
h****n
发帖数: 1093
133
深有同感。。。
上次面被问了一个有关数据库的系统设计,直接慌了,唉,还是基础不好

【在 i****y 的大作中提到】
: mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
l****o
发帖数: 315
134
dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
a********m
发帖数: 15480
135
赞。该骂克!

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

w****x
发帖数: 2483
136

Dong fei是一个我很仰慕的大牛

【在 l****o 的大作中提到】
: dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
C*******n
发帖数: 24
137
对这个很感兴趣,多谢楼主分享经验。
另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
验,只是自学的时候做个toy project他们也可以要?
i*o
发帖数: 149
138
paxos 太底层了吧。

【在 t********e 的大作中提到】
: 要把paxos吃透
d********w
发帖数: 363
139
自学也可以啊,可以捣鼓ec2虚拟机上搭建集群,跑一些job。不过很多时候面试官问你
实际的经验,不喜欢纸上谈兵,大数据量和cluster是很难个人玩的。

【在 C*******n 的大作中提到】
: 对这个很感兴趣,多谢楼主分享经验。
: 另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
: 验,只是自学的时候做个toy project他们也可以要?

k****r
发帖数: 807
140
大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
道他们会不会介意呢?能提供些经验吗?谢谢
相关主题
面试犯2了请问怎样才能很好的学习hadoop (转载)
弱问现在弯曲哪里收普通java屌丝?Cloudera这个公司怎么样
有人收到过docker的offer么?Hortonworks filed ipo
进入JobHunting版参与讨论
d********w
发帖数: 363
141
既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
本的coding,我被问过实现读写锁,当时也忘了。

【在 k****r 的大作中提到】
: 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
: 道他们会不会介意呢?能提供些经验吗?谢谢

l****o
发帖数: 315
142
你们两位我都很仰慕...

【在 w****x 的大作中提到】
:
: Dong fei是一个我很仰慕的大牛

k****r
发帖数: 807
143
Thank you so much.
能展开说下实现读写锁吗,谢谢。

【在 d********w 的大作中提到】
: 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
: 本的coding,我被问过实现读写锁,当时也忘了。

B***i
发帖数: 297
144
我这干了多年的'数据仓库'就完啦?以后都是'大数据' 和Hadoopde1 天下?呜呼!
z****e
发帖数: 54598
145
不太可能
都搞hadoop了,一般不会直接面fresh,看简历,用过什么语言一目了然
要不然说让没倒腾过java的去调整jvm参数?这个也夸张了点

【在 d********w 的大作中提到】
: 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
: 本的coding,我被问过实现读写锁,当时也忘了。

l*****t
发帖数: 2019
146
这个說得对。说课余时间玩儿过hadoop就可了。hadoop装hands-on对死的很惨。很多实
战问题你google都骨不到。

【在 z****e 的大作中提到】
: 不太可能
: 都搞hadoop了,一般不会直接面fresh,看简历,用过什么语言一目了然
: 要不然说让没倒腾过java的去调整jvm参数?这个也夸张了点

v***n
发帖数: 562
147
不错!谢了!
c********p
发帖数: 1969
148
mark
r********d
发帖数: 7742
149
好贴,终于有一个好的starter guide了,早就下了那本书,也一直想玩玩hadoop,但
是一直没有付诸行动。楼主的贴真是醍醐灌顶,挖坟的人真是慧眼识金啊。收藏了。
不知道有没有大牛了解,用一些raspery pi和几片lego能不能褡出来一个toy的系统来
耍?

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

q****o
发帖数: 57
150
我也mark,最近初学hbase
相关主题
Linkedin vs Salesforce vs Early Startup?[cloudera面试] senior engineer
请问一下大家对MapR这家公司怎么看?hortonworks这个公司如何 (转载)
报几个offer求问hadoop学习资料
进入JobHunting版参与讨论
u*****o
发帖数: 1224
151
mark...
t******i
发帖数: 483
152
mark
h********g
发帖数: 496
153
Mark
J*********r
发帖数: 5921
154
m
i***u
发帖数: 89
155
最近实在太火

【在 d********w 的大作中提到】
: 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
: (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
: 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
: twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
: 书籍和paper
: : 里面内容非常好,既有高屋建瓴,又有微观把握,
: 比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
: google的三量马车,GFS, MapReduce, BigTable
: 入门:
: 知道MapReduce大致流程,map, shuffle, reduce

d********w
发帖数: 363
156
帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
,我就继续补充,希望抛砖引玉。
[2013]新补充
Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
0的核心是YARN,它的诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
Yarn介绍
http://hortonworks.com/hadoop/yarn/
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
一些感想
1. 这个领域还是印度人占主体,Hortonworks挺喜欢开源,开发节奏很快,cloudera的
拳头产品enterprise manager又是收费的,估计最后也是被H逼着要开源了。
2. 真正搞Hadoop开发的难度很大,分布式系统很复杂,而开源使得竞争压力很大。
3. 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,
三流的公司卖产品,上面的几个公司
4. 技术就是日新月异,还是多看看那些公司的博客,发布新产品,比如hortonworks.
com/hadoop/ambari,我research project跟这个类似。

【在 i***u 的大作中提到】
: 最近实在太火
z****e
发帖数: 54598
157
现在还有些难度
但是随着spring朝着这个领域进军,门槛会越来越低
迟早有一天,hadoop和cassandra会变成spring和hibernate一样
变成java程序猿的标配
那一天来的时候,也就是big data真正火爆全球的时候
到时候就业机会会像更多,更火爆
现在要做的就是
做好准备,等稳定的2.0版本出来,就开始推广
推广到全世界去,实现公孙大神说过的全民皆编
让开源变成人民战争的汪洋大海

2.

【在 d********w 的大作中提到】
: 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
: ,我就继续补充,希望抛砖引玉。
: [2013]新补充
: Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
: 0的核心是YARN,它的诞生还是有趣的故事
: http://tech.qq.com/a/20130703/015928.htm
: Yarn介绍
: http://hortonworks.com/hadoop/yarn/
: Hadoop 生态系统
: http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

z****e
发帖数: 54598
158
补充一下关联项目
spring
http://www.springsource.org/spring-data/hadoop
cassandra
http://wiki.apache.org/cassandra/HadoopSupport
这两个都不太成熟,版本号都才在1
还需要时间,需要大量热血青年做炮灰
w**********o
发帖数: 140
159
mark
z****e
发帖数: 54598
160
认真观察了一下hadoop新版
简直就是一个小型实现得很不彻底的j2ee系统
有些项目连jmx都用上了
yarn里面node manager都有container这个概念了
通信还有rmi这些
都不是很简单的java概念
如果没有一定的基础和经验
感觉连文档都看不懂
一个最简单的yarn代码看起来都会万分痛苦

【在 d********w 的大作中提到】
: 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
: ,我就继续补充,希望抛砖引玉。
: [2013]新补充
: Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
: 0的核心是YARN,它的诞生还是有趣的故事
: http://tech.qq.com/a/20130703/015928.htm
: Yarn介绍
: http://hortonworks.com/hadoop/yarn/
: Hadoop 生态系统
: http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

相关主题
WalmartLabs vs Twitter vs HortonworksBigData Senior Data Engineer @Endurance/ConstantContact around Boston area
Data bricks怎样?[hortonworks面经] senior hadoop engineer
做Spark前途咋样啊?MapR Technologies continue hiring a lot of positions
进入JobHunting版参与讨论
z****e
发帖数: 54598
161
太复杂,nerd们又把问题复杂化了
client要先找resource manager,然后resource manager启动application master
再去找node manager,然后通过node的container来处理请求
嘿嘿,这个过程真不是一般的复杂,感觉比ejb要难
l*******X
发帖数: 28
162
全民皆编,有这个需求么

【在 z****e 的大作中提到】
: 现在还有些难度
: 但是随着spring朝着这个领域进军,门槛会越来越低
: 迟早有一天,hadoop和cassandra会变成spring和hibernate一样
: 变成java程序猿的标配
: 那一天来的时候,也就是big data真正火爆全球的时候
: 到时候就业机会会像更多,更火爆
: 现在要做的就是
: 做好准备,等稳定的2.0版本出来,就开始推广
: 推广到全世界去,实现公孙大神说过的全民皆编
: 让开源变成人民战争的汪洋大海

a*****u
发帖数: 1712
163
mark

★ 发自iPhone App: ChineseWeb 7.8

【在 d********w 的大作中提到】
: 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
: ,我就继续补充,希望抛砖引玉。
: [2013]新补充
: Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
: 0的核心是YARN,它的诞生还是有趣的故事
: http://tech.qq.com/a/20130703/015928.htm
: Yarn介绍
: http://hortonworks.com/hadoop/yarn/
: Hadoop 生态系统
: http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

d*******u
发帖数: 5337
164
楼主是在Linkedin就职吧?
s********r
发帖数: 403
165
rw lock 要注意 reader 可能 block writer, writer starvation.
最好提一下 rw lock 的改进算法。

【在 k****r 的大作中提到】
: Thank you so much.
: 能展开说下实现读写锁吗,谢谢。

s********r
发帖数: 403
166
Map reduce 的大量 research 投入在 5年前,
现在 framework 基本成熟,正是大规模商业化应用的阶段。
和所有曾经红极一时的技术一样,都有个hot spot,想跳的需要抓住时机,晚了就捞不
到了。

【在 d********w 的大作中提到】
: 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
: ,我就继续补充,希望抛砖引玉。
: [2013]新补充
: Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
: 0的核心是YARN,它的诞生还是有趣的故事
: http://tech.qq.com/a/20130703/015928.htm
: Yarn介绍
: http://hortonworks.com/hadoop/yarn/
: Hadoop 生态系统
: http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g

e******u
发帖数: 1067
167
你的意思是现在是hadoop最好的时机?
但是如果没有经验只有自学,怎么往这方向上跳呢?

【在 s********r 的大作中提到】
: Map reduce 的大量 research 投入在 5年前,
: 现在 framework 基本成熟,正是大规模商业化应用的阶段。
: 和所有曾经红极一时的技术一样,都有个hot spot,想跳的需要抓住时机,晚了就捞不
: 到了。

s********r
发帖数: 403
168
关于这个问题,好心的楼主已经作了解答 并share了一些经验
Hadoop 是开源社区搞的,学习资料一般都很全面

【在 e******u 的大作中提到】
: 你的意思是现在是hadoop最好的时机?
: 但是如果没有经验只有自学,怎么往这方向上跳呢?

r****s
发帖数: 1025
169
MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
10秒。不过最终还是可以给你算出来。
Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
现在玩的就是怎么代替MapReduce。
这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
有,属于胡搅蛮缠凑热闹的。
另外说一句,Hive是Facebook的东西,Dremel是Google的,两公司差距不小。
z****e
发帖数: 54598
170
前面说这东西很复杂很慢
后面说某个东西无法被超越,按照中国人写文章的习惯
最后一句是点睛之笔,所以看来本意是想吹嘘说某个公司的产品不可替代
这个无间道玩得还是很高级的嘛
楼主出来介绍新产品看来让某些奴隶主的手下有些坐不住了
没有关系,你越激动,就越说明这些东西正在起作用
给予足够的时间,这些差距就能被缩小甚至抹平
不需要百分百超越,能做到50%其实就已经有足够的威力鸟
山寨的趋势不可避免,mapreduce已经要被放弃鸟
hive要是不做数据分析和挖掘用了干嘛?
大多数人只需要用mapreduce搞定基本的查询功能就好了
宏观数据那是领导层想的事,而且也的确不怎么讲究效率
就是等一个晚上出个报表又怎样?
话说看你这样气急败坏还是很好玩的
继续告诉所有人说开源跟这个跟那个的差距不小
没有关系,开源会跟着你,一点一点逼近

【在 r****s 的大作中提到】
: MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
: 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
: 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
: 10秒。不过最终还是可以给你算出来。
: Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
: 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
: 现在玩的就是怎么代替MapReduce。
: 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
: 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
: Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没

相关主题
MapR Technologies continue hiring a lot of positions弱问现在弯曲哪里收普通java屌丝?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?有人收到过docker的offer么?
面试犯2了请问怎样才能很好的学习hadoop (转载)
进入JobHunting版参与讨论
s********r
发帖数: 403
171
针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p
+(1-p)/N)
p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使
N 趋于无穷, 能获得的最大加速也就只有 1/p。
因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data
Level Parallelism (or Weak Scaling),并不是指令并发。
而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。
一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统,
用来处理 Select, 4行小文件,也是不会快的。

【在 r****s 的大作中提到】
: MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
: 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
: 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
: 10秒。不过最终还是可以给你算出来。
: Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
: 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
: 现在玩的就是怎么代替MapReduce。
: 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
: 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
: Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没

d********w
发帖数: 363
172
顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的
复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他
就写了篇文章吐槽
“实践并不是检验真理的唯一标准”
http://i.stanford.edu/~ullman/pub/experiments.pdf

(p

【在 s********r 的大作中提到】
: 针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p
: +(1-p)/N)
: p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使
: N 趋于无穷, 能获得的最大加速也就只有 1/p。
: 因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data
: Level Parallelism (or Weak Scaling),并不是指令并发。
: 而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。
: 一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统,
: 用来处理 Select, 4行小文件,也是不会快的。

h*****a
发帖数: 1718
173
赞大牛,太专业了!

【在 d********w 的大作中提到】
: 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的
: 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他
: 就写了篇文章吐槽
: “实践并不是检验真理的唯一标准”
: http://i.stanford.edu/~ullman/pub/experiments.pdf
:
: (p

f*****6
发帖数: 61
174
大牛,能给些大中小的公司,是做大数据和hadoop方面相关的吗。谢谢。
r****s
发帖数: 1025
175
对,没错,你这属于theoretical junk,正确的废话。很正确,但是对MapReduce的当前
替代
者来说,没有任何关系。比如Impala, http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_prereqs.html 看看这里的hardware requirement,我草,黑老子一跳,这尼玛还是commodity hardware+parallel processing吗?明摆着是用big ass server来vertically scale up。

(p

【在 s********r 的大作中提到】
: 针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p
: +(1-p)/N)
: p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使
: N 趋于无穷, 能获得的最大加速也就只有 1/p。
: 因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data
: Level Parallelism (or Weak Scaling),并不是指令并发。
: 而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。
: 一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统,
: 用来处理 Select, 4行小文件,也是不会快的。

s******e
发帖数: 146
176
多谢分享。

【在 d********w 的大作中提到】
: 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的
: 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他
: 就写了篇文章吐槽
: “实践并不是检验真理的唯一标准”
: http://i.stanford.edu/~ullman/pub/experiments.pdf
:
: (p

d********w
发帖数: 363
177
公司太多了,
你自己找感兴趣的吧,http://wiki.apache.org/hadoop/PoweredBy

【在 f*****6 的大作中提到】
: 大牛,能给些大中小的公司,是做大数据和hadoop方面相关的吗。谢谢。
d********w
发帖数: 363
178
推荐一个电子书:Mining of Massive Datasets
http://i.stanford.edu/~ullman/mmds.html

【在 d********w 的大作中提到】
: 公司太多了,
: 你自己找感兴趣的吧,http://wiki.apache.org/hadoop/PoweredBy

p*****2
发帖数: 21240
179

大牛说说这hadoop一般要学多久呀?

【在 d********w 的大作中提到】
: 推荐一个电子书:Mining of Massive Datasets
: http://i.stanford.edu/~ullman/mmds.html

s********r
发帖数: 403
180
没见特别牛鼻的 hardware requirement ,
普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU,
8-core 的 CPU + 24G/32G RAM 是基本要求。
在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing
non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。

【在 r****s 的大作中提到】
: 对,没错,你这属于theoretical junk,正确的废话。很正确,但是对MapReduce的当前
: 替代
: 者来说,没有任何关系。比如Impala, http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_prereqs.html 看看这里的hardware requirement,我草,黑老子一跳,这尼玛还是commodity hardware+parallel processing吗?明摆着是用big ass server来vertically scale up。
:
: (p

相关主题
Cloudera这个公司怎么样请问一下大家对MapR这家公司怎么看?
Hortonworks filed ipo报几个offer
Linkedin vs Salesforce vs Early Startup?[cloudera面试] senior engineer
进入JobHunting版参与讨论
s********r
发帖数: 403
181
这个要 case by case,一般大牛们的文章,发到 theoretical 的会议当然是受欢迎的。
不过如果有 industrial 的人作 committee,他们一看,推导这么复杂,因为领导们也
是大忙人,没有时间花几个晚上一步步推算验证,所以就会直接问 “试验结果在什么
地方”?
因为衡量标准不同,业界的东西必需能够 work, as expected。

【在 d********w 的大作中提到】
: 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的
: 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他
: 就写了篇文章吐槽
: “实践并不是检验真理的唯一标准”
: http://i.stanford.edu/~ullman/pub/experiments.pdf
:
: (p

r********d
发帖数: 7742
182
菜鸟弱问一句,如果就是扯淡,为什么大家都在用?
或者说至少之前大家都在用呢?

【在 r****s 的大作中提到】
: MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
: 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
: 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
: 10秒。不过最终还是可以给你算出来。
: Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
: 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
: 现在玩的就是怎么代替MapReduce。
: 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
: 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
: Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没

r****s
发帖数: 1025
183
还在学校里,没开始工作吧?
你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具
体指的是哪个公司啊?


processing

【在 s********r 的大作中提到】
: 没见特别牛鼻的 hardware requirement ,
: 普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU,
: 8-core 的 CPU + 24G/32G RAM 是基本要求。
: 在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing
: non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。

r****s
发帖数: 1025
184
因为除了MapReduce没别的好用了,大家就忍了。
现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是
,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未?
Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。
那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了
,Apache Drill是MapR。

【在 r********d 的大作中提到】
: 菜鸟弱问一句,如果就是扯淡,为什么大家都在用?
: 或者说至少之前大家都在用呢?

r********d
发帖数: 7742
185
大数据全上内存不现实吧。
btw,你有很多实际经验,你写一篇分析各个系统优劣的文章,我们学习一下吧。
要不然对这些最新技术我们都是雾里看花。

【在 r****s 的大作中提到】
: 因为除了MapReduce没别的好用了,大家就忍了。
: 现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是
: ,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未?
: Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。
: 那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了
: ,Apache Drill是MapR。

s********r
发帖数: 403
186
这些都不是公司,是research center的,公司用这么大规模的系统,
连电费都付不起。
但正因为不是公司的系统平台,找工作出现了问题,Position 都要Citizenship 的,
专注low level 细节派不上用场,学半天白干一场。
还不如一开始就 Hadoop 呢。

【在 r****s 的大作中提到】
: 还在学校里,没开始工作吧?
: 你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具
: 体指的是哪个公司啊?
:
: ,
: processing

r****s
发帖数: 1025
187
看出问题来了吧?
Hadoop没有啥各系统的,大家都基于DFS,然后在MapReduce上做改动。学习这东西也很
简单,买几个desktop,一两千块钱的事,自己在家里就可以搭个小cluster。Linux也
是免费的。自己下一个Cloudera,或者plain vanila的Apache Hadoop,装个MySql,不就
啥都明白了吗?至于那么难吗?
d*********s
发帖数: 777
188
mark
y***t
发帖数: 644
189
现在哪用得着自己买系统. 直接在Amazon上租几台就行了。

【在 r****s 的大作中提到】
: 看出问题来了吧?
: Hadoop没有啥各系统的,大家都基于DFS,然后在MapReduce上做改动。学习这东西也很
: 简单,买几个desktop,一两千块钱的事,自己在家里就可以搭个小cluster。Linux也
: 是免费的。自己下一个Cloudera,或者plain vanila的Apache Hadoop,装个MySql,不就
: 啥都明白了吗?至于那么难吗?

y***t
发帖数: 644
190
这帖很多有用的信息,谢谢楼主了!
相关主题
hortonworks这个公司如何 (转载)Data bricks怎样?
求问hadoop学习资料做Spark前途咋样啊?
WalmartLabs vs Twitter vs HortonworksBigData Senior Data Engineer @Endurance/ConstantContact around Boston area
进入JobHunting版参与讨论
l*****t
发帖数: 2019
191
俺就小声说一句, 你给的那个select 不trigger mapred的。

【在 r****s 的大作中提到】
: MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
: 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
: 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
: 10秒。不过最终还是可以给你算出来。
: Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
: 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
: 现在玩的就是怎么代替MapReduce。
: 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
: 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
: Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没

l*****t
发帖数: 2019
192
估计run 几个impala join马上不fit memory就爆了。


processing

【在 s********r 的大作中提到】
: 没见特别牛鼻的 hardware requirement ,
: 普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU,
: 8-core 的 CPU + 24G/32G RAM 是基本要求。
: 在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing
: non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。

l*****t
发帖数: 2019
193
我怎么觉得人说得是现在的标配。

【在 r****s 的大作中提到】
: 还在学校里,没开始工作吧?
: 你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具
: 体指的是哪个公司啊?
:
: ,
: processing

r****s
发帖数: 1025
194
随便加个where clause就行了

【在 l*****t 的大作中提到】
: 俺就小声说一句, 你给的那个select 不trigger mapred的。
l*****t
发帖数: 2019
195
所以我小声说么。小声说:要严谨。。

【在 r****s 的大作中提到】
: 随便加个where clause就行了
x*****0
发帖数: 452
196
mark
H*******g
发帖数: 6997
197
+11111
zhaoce,你谈谈Linq To HIVE?
x*********s
发帖数: 4
198
mark
p*********e
发帖数: 5
199
mark
g****l
发帖数: 213
200
mark
相关主题
[hortonworks面经] senior hadoop engineer面试犯2了
MapR Technologies continue hiring a lot of positions弱问现在弯曲哪里收普通java屌丝?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?有人收到过docker的offer么?
进入JobHunting版参与讨论
A***g
发帖数: 1816
201
好文章啊
m****c
发帖数: 252
202
Mark
t******i
发帖数: 483
203
mark
f*******b
发帖数: 520
204
更新了?
h******6
发帖数: 2697
205
mark
c******y
发帖数: 3269
206
mark
n*****n
发帖数: 5277
207
ding
n*****n
发帖数: 5277
208
ding
j*****8
发帖数: 3635
209
这么好的文章居然不知道,多谢楼上顶出来的兄弟!!
z**********g
发帖数: 26
210
mark
相关主题
有人收到过docker的offer么?Hortonworks filed ipo
请问怎样才能很好的学习hadoop (转载)Linkedin vs Salesforce vs Early Startup?
Cloudera这个公司怎么样请问一下大家对MapR这家公司怎么看?
进入JobHunting版参与讨论
j*****d
发帖数: 1625
211
这都看完了,不需要知道java了吧
z****e
发帖数: 54598
212
lol
这些都看完了还不知道java的话,也不容易
里面一堆的jvm调优这些,几乎所有例子都是java写的
要不会java也能搞出来那叫真牛逼

【在 j*****d 的大作中提到】
: 这都看完了,不需要知道java了吧
z****e
发帖数: 54598
213
spark

【在 d********w 的大作中提到】
: 推荐一个电子书:Mining of Massive Datasets
: http://i.stanford.edu/~ullman/mmds.html

z****e
发帖数: 54598
214
东肥更新一下这个贴吧
这个列表大部分都凹凸了
尤其是2.0和spark出来之后
改变还是很明显的

【在 d********w 的大作中提到】
: 推荐一个电子书:Mining of Massive Datasets
: http://i.stanford.edu/~ullman/mmds.html

d********w
发帖数: 363
215
Spark就是 看这个DOC就好了
http://spark.apache.org/docs/latest/index.html
演讲参见
http://spark-summit.org/2014
现在也没有多少资料可以查询

【在 z****e 的大作中提到】
: 东肥更新一下这个贴吧
: 这个列表大部分都凹凸了
: 尤其是2.0和spark出来之后
: 改变还是很明显的

y**********a
发帖数: 824
216
mark
m****x
发帖数: 12
217
thanks
mark
c***z
发帖数: 6348
218
学习了
多谢大牛分享
可以转贴到数据科学版么
w**2
发帖数: 147
219
谢谢,能推荐一些hadoop python streaming interface的资料吗?

【在 d********w 的大作中提到】
: Spark就是 看这个DOC就好了
: http://spark.apache.org/docs/latest/index.html
: 演讲参见
: http://spark-summit.org/2014
: 现在也没有多少资料可以查询

v******l
发帖数: 60
220
mark
相关主题
报几个offer求问hadoop学习资料
[cloudera面试] senior engineerWalmartLabs vs Twitter vs Hortonworks
hortonworks这个公司如何 (转载)Data bricks怎样?
进入JobHunting版参与讨论
J*******o
发帖数: 741
221
Mark
b*******g
发帖数: 757
222
mark
b******z
发帖数: 410
223
M

★ 发自iPhone App: ChineseWeb 8.7

【在 d********w 的大作中提到】
: Spark就是 看这个DOC就好了
: http://spark.apache.org/docs/latest/index.html
: 演讲参见
: http://spark-summit.org/2014
: 现在也没有多少资料可以查询

s******s
发帖数: 2837
224
mark
t*******e
发帖数: 274
225
mark
1 (共1页)
进入JobHunting版参与讨论
相关主题
WalmartLabs vs Twitter vs Hortonworks弱问现在弯曲哪里收普通java屌丝?
Data bricks怎样?有人收到过docker的offer么?
做Spark前途咋样啊?请问怎样才能很好的学习hadoop (转载)
BigData Senior Data Engineer @Endurance/ConstantContact around Boston areaCloudera这个公司怎么样
[hortonworks面经] senior hadoop engineerHortonworks filed ipo
MapR Technologies continue hiring a lot of positionsLinkedin vs Salesforce vs Early Startup?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?请问一下大家对MapR这家公司怎么看?
面试犯2了报几个offer
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: mark话题: cloudera话题: cassandra