关于hadoop的讨论汇总 - 话题女王

m*****k
发帖数: 731

我在试http://hadoop.apache.org/common/docs/r0.20.2/quickstart.html
我用的是win7 和 cygwin,
Standalone Operation
By default, Hadoop is configured to run in a non-distributed mode, as a
single Java process. This is useful for debugging.
The following example copies the unpacked conf directory to use as input and
then finds and displays every match of the given regular expression. Output
is written to the given output directory.
$ mkdir input
$ cp conf/*.xml input
在这一步
$ bin/hadoop jar hadoop-*-examples.ja... 阅读全帖

m*****k
发帖数: 731

来自主题: Java版 - hadoop quickstart 疑问

l*****e
发帖数: 3343

来自主题: Database版 - Hadoop面试和学习小结[2013版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标题: Hadoop面试和学习小结[2013版]
关键字: 面试,Big Data,Hadoop
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
[2013 UPDATE]
Hadoop 2.0转型基本无可阻挡，今年下半年要正式发布了，它的出现让大家知识体系都
要更新了。Hadoop1.0搞了8年才发布，2.0不到2年就出来了。2.0的核心是YARN，它的
诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
YARN介绍
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-... 阅读全帖

w**z
发帖数: 8232

来自主题: Programming版 - Cloudera pitches Hadoop for everything. Really?

http://www.infoworld.com/t/hadoop/cloudera-pitches-hadoop-every
When you have a big enough hammer, everything begins to look like the same
kind of nail.
That's one of the potential problems with Hadoop 2.0, the greatly reworked
big data processing framework that's been at the center of a whole storm of
developer and end user interest. Cloudera in particular has plans to make it
into a hammer for all kinds of nails.
There's no question that Hadoop 2.0 is a major leap over its predecessor.
Instead... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

z*****s
发帖数: 272

来自主题: JobHunting版 - [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: sphinks (Tommy), 信区: Statistics
标题: [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会
发信站: BBS 未名空间站 (Tue Jun 21 13:53:11 2016, 美东)
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯，
那对咱都没有用，那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称）为啥要告诉你们呢，本D为了当网红拼了！
之前的公司，哪哪都好，就是不推进开源软件，还是以SAS为主，也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊，所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好，R本来就很熟，Python学起来也容易，唯独这个Hadoop, 公司
没有平台，这东西又不像Python能自己免费装一个，感觉完全无从下手。热门Data
Scientist工作，各个打开都首先提到，懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Had... 阅读全帖

z*****s
发帖数: 272

来自主题: SanFrancisco版 - [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)

s*****s
发帖数: 128

来自主题: Statistics版 - [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会

今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯，
那对咱都没有用，那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称）为啥要告诉你们呢，本D为了当网红拼了！
之前的公司，哪哪都好，就是不推进开源软件，还是以SAS为主，也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊，所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好，R本来就很熟，Python学起来也容易，唯独这个Hadoop, 公司
没有平台，这东西又不像Python能自己免费装一个，感觉完全无从下手。热门Data
Scientist工作，各个打开都首先提到，懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求，就自觉矮了三分。最后硬着头皮决定
，即使没有平台练习，起码也看看基本理论吧，然后从Hadoop看起，维基百科各种论文
一一浏览，什么大数据分到各种小块上处理啊，汗都下来了，还是没明白到底咋回事。
好吧，起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂，... 阅读全帖

o**********e
发帖数: 18403

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现... 阅读全帖

z****e
发帖数: 54598

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖

l******t
发帖数: 660

来自主题: Database版 - hadoop面试和学习总结 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随着大数据的盛行，Hadoop也流行起来。我面过很多hadoop相关的公司，包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的（使用hadoop)：apple, expedia，comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的，我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好，既有高屋建瓴，又有微观把握，
比如mapreduce各个子阶段，经常问道join在里面也有代码实现，
google的三量马车，GFS, MapReduce, BigTable
入门：
知道MapRedu... 阅读全帖

S*******h
发帖数: 7021

来自主题: Java版 - 请问Hadoop要怎么学？

之前有网友推荐这些. 我还没去仔细看过　你参考看看吧　有用的话上来吱一声
---------
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随著大数据的盛行，Hadoop也流行起来。我面过很多hadoop相关的公司，包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的（使用hadoop)：apple, expedia，comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的，我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好，既有高屋建瓴，又有微观把握，
比如mapreduce各个子阶段，经常问道join在里面也有代码实现，
google的三量马车，GFS, MapReduce, B... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - hadoop面试和学习总结

随着大数据的盛行，Hadoop也流行起来。我面过很多hadoop相关的公司，包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的（使用hadoop)：apple, expedia，comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的，我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好，既有高屋建瓴，又有微观把握，
比如mapreduce各个子阶段，经常问道join在里面也有代码实现，
google的三量马车，GFS, MapReduce, BigTable
入门：
知道MapReduce大致流程，map, shuffle, reduce
知道combiner, partition作用，设置compression
搭建hadoop集群，master/slave 都运行那些服务
HDFS，replica如何定位
版本0.20.2->0.20.203->... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - hadoop面试和学习总结

d********w
发帖数: 363

来自主题: JobHunting版 - hadoop面试和学习总结

帖子是一年前的，最近一年也没太多关注，今天整理了一些，Hadoop发展变化非常大的
，我就继续补充，希望抛砖引玉。
[2013]新补充
Hadoop 2.0正式版马上要发布了，Hadoop1.0搞了8年才发布，2.0不到2年就出来了。2.
0的核心是YARN，它的诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
Yarn介绍
http://hortonworks.com/hadoop/yarn/
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
一些感想
1. 这个领域还是印度人占主体，Hortonworks挺喜欢开源，开发节奏很快，cloudera的
拳头产品enterprise manager又是收费的，估计最后也是被H逼着要开源了。
2. 真正搞Hadoop开发的难度很大，分布式系统很复杂，而开源使得竞争压力很大。
3. 核心都是被寡头控制的，记得一边文章说一流的公司卖标准，二流的公司卖技术，
三流的公司卖产品，上面的几个公司
... 阅读全帖

S****h
发帖数: 558

来自主题: JobHunting版 - Senior Software Engineer (Hadoop) -ebay China

In case you are interested.
Business Title : Senior Software Engineer (Hadoop)
Category : Tech - Software Engineers
Position Area : China - Shanghai
Work Location : eBay China Development Center
Primary Job Responsibilities :
This is a position reporting to the Manager of Product Engineering, within
the Analytic Platform & Delivery department at eBay. The Senior Software
Engineer (Hadoop) will be responsible for development of Hadoop-based
solutions on eBay''s world-class analytic platform. The ... 阅读全帖

h*****u
发帖数: 204

来自主题: DataSciences版 - 1 big Hadoop&Hbase vs 1 Hadoop + 1 Hbase

Hadoop will run a lot of jobs by reading data from Hbase and writing data to
Hbase.
Suppose I have 100 nodes, there are two ways I can build my Hadoop/Hbase
cluster:
option1. 100 nodes hadoop & hbase cluster (1 big Hadoop&Hbase)
option2. Separate the Database(Hbase), then we have two clusters:
60 nodes Hadoop cluster and 40 nodes Hbase cluster (1 Hadoop + 1 Hbase)
which option is better? Why?
Thanks.

d********w
发帖数: 363

来自主题: JobHunting版 - 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？

为啥那这本书来准备面试呢？如果你没有hadoop的经验，也不用看这些的。
如果你的职位要求里面确实有hadoop，可以去检查或者搜索一下以下问题
１.　mapreduce的几个阶段
２.　pig, hive的大致设计和比较，（结合sql写法）
３.　wordcount, terasort的mapreduce程序写法
４.　hadoop在不同节点启动了那些服务
５.　secondary sort, partition如何用
６.　什么是nosql，ACID跟BASE比较
７.　hadoop的不足和最新改进（next generation)
8. HDFS的如何做到scalability和高可靠性
这些基本问题掌握后，可以找找资源，比如你提到那边书，GFS/MapReduce/BigTable
paper, hadoop summit 2012大会上的slides，youtube或者cloudera上面的hadoop视频
海量数据处理倒是经常会问到，比如如何在多台机器上找中位数，n个数找最大k个数，
搜索如何做索引，以前有个帖子专门总结过。

C*******n
发帖数: 24

来自主题: JobHunting版 - 现在去做hadoop的公司工作还有前途吗？

如果要从现存的几十种开源项目中选取最合适当前所做项目的，码农的知识与经验肯定
是很具有优势的。编程确实不是ML/Data scientist的强项，这也是我的猜测依据之一
——工具的易用性降低了编程的难度，所以码农的优势被削弱了。我不知道你说的
hadoop的专家是指什么样的人，如果是指给hadoop写job的熟练工的话，我感觉ML/Data
scientist应该也不难做到。这也是为什么我先问楼主这份工作是否是单纯写hadoop的
job。当然我猜测hadoop的专家肯定不是这么肤浅的角色，你可否讲一下hadoop专家应
具备的技能，也算是为楼主指一个方向。

hadoop

w********p
发帖数: 948

来自主题: JobHunting版 - 弯曲学习互助小组Hadoop event 找志同道合者。这周末

今天给几个印印一个talk，讲了一点hadoop的东西，我自己不是专家，硬着头皮上，不
过最后也没戳破。
我的感受是，我自己确实得到锻炼。看起来牛的样子。这个在公司很重要。
第二是，我学习到印印的态度，知道他们那些是虚的，那些是实在，如何让他们抬头看
你。
第三是，我看到自己的弱点，和长处，知道回家补哪一块。
第四是，学习到如何更好的描述项目。
我当时心里在想，为什么下面座的不是同胞。如果是同胞情形有会是什么样子。
为什么会给印印讲呢？因为有人拜托我啊。。。。谢的像啥似的
为啥不和同胞讲啊？因为我需要去求，然后结果也只是maybe。
上周，想着给改改简历，弄弄mock interview的event，结果就是maybe. 自然cancel掉
event。后来和一个将要毕业朋友一起review resume, 讲了2个小时，如果有group在一
起，每个人都可以获利。
这个周末我像找3-5个找志同道合者一起切磋hadoop。
人少无所谓。人要是多的话，就看大家的意思了。
我可能不会有时间来回答问题。
event link: https://www.facebook.com/grou... 阅读全帖

s*****a
发帖数: 438

来自主题: JobHunting版 - 我们公司招Hadoop Engineer

公司在280和92交界的地方，我们组招Hadoop Engineer. 貌似不会考算法. 至今为止
递简历的全是烙印，如果有人感兴趣，请站内联系.
下面是job description
Hadoop Engineer
Location: San Mateo, CA, USA (headquarters) San Mateo, CA
Job Description
We are looking for a solid Hadoop engineer to join our team. Your role will
be to help us develop Big Data applications that have an impact on our
customers. The role of the Hadoop Engineer will be to develop ETL data
pipelines and to work with Internal teams to deploy using internal DevOps
tools. The ideal candi... 阅读全帖

w***g
发帖数: 5958

来自主题: CS版 - Hadoop居然是用Java写的，不理解 (转载)

真不好意思我还没写过mapreduce code。我一直在关注hadoop是因为我们想用它来处理
一大批图片文件。一共有十来个TB吧，每个100KB的样子。很不幸的是hadoop基本上不
支持小文件。我们测试过hadoop upload的性能，上传小文件要达到1MB/s都困难，传完
那么多图片基本上就天荒地老了。
事实上我们希望弄一个支持小文件的storage，这样以后更多的文件来了直接存进去，
然后mapreduce，但是hadoop现在的状态还是没法用。如果您老有什么建议不妨讲讲，
要能帮我们解决了这个问题那就最好不过了。
我们自己能想到的无非就是把一个目录tar起来再放到hadoop上。但是那样处理起来比
较麻烦。我正在盼着hadoop实现类似的功能(HBASE?), 呵呵。

data

d**********3
发帖数: 1186

来自主题: Database版 - Tech Session: How to start learning Hadoop

Hello PASS Chinese Members,
We will hold SQL PASS Global Chinese Monthly Meeting for Jan 2015 on Jan 8th.
Meeting Agenda,
1)Community Updates
2)Technical Session led by Serena Gong
How to start learning Hadoop (1 hour - 1.5 hours)
This session will help everyone to setup one environment local for Hadoop
journey , demo how Hadoop running HiveQL (most like SQL). I will leave the
deep dive for underlying in future. This is a practical beginning session
for new users.
*Design big data application ... 阅读全帖

s****y
发帖数: 503

来自主题: Programming版 - Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？

我这两天装了一下Hadoop2.2的集群，用了Yarn和Zookeeper，执行Mapreduce的时候都
是用命令行，比如hadoop jar mapreduceExample.jar /user/root/data/source.txt /
user/root/output/result
当然我估计实际使用的时候还会用到Flume、HBase等技术，但是实际的Hadoop系统是什
么样的？都是用命令行人工执行的？
还有Hadoop和Java的关系是不是就是用Java写Mapreduce的程序，然后把jar部署到
Hadoop中运行，Hadoop和Java的联系是不是就这些？

z*******3
发帖数: 13709

来自主题: DataSciences版 - 一个白痴问题，如何把access的表格导入hadoop里面去

搞hadoop，要想不被程序员，咨询公司所绑架
最好就把java搞懂，否则，就会给那些乱七八糟的咨询公司送钱
那些咨询公司就喜欢骗这种钱，因为你不懂，所以你只能掏钱
但是这东西要是rocket science，俺就不说啥了
问题是不是呀，一个学arts的本科生，读一个学期，都能a的东西
你一老中grad毕业，搞不定这个？哎，那你说你搞的那些高等数学有啥用？
高数难度远大于这个，搞懂这些不仅对自身工作有利
你老问别人，次数多了，人家也烦，而且也影响你自身的工作效率
老板会觉得你怎么老是搞不定？为什么隔壁那个阿三能搞定？
我发现是个阿三都懂java，无论它学啥
你觉得甘心在这种大一本科生都能搞定的东西上落后于阿三么？
你想想你自己读个物理或者统计的phd，多苦逼，那些概念多难懂？
java多低级的一个东西，最后因为java你落后于阿三，最后还被阿三欺负
你甘心么？
就像如何从各个数据库之间搬运数据，这个其实很容易，只要是java，就有jdbc
jdbc和odbc有一个接口，然后你自己写个程序
想放到哪就放到哪，本质上是一样的，可以以不变应万变，java从来都是这样
以后管他什么数据库，都是... 阅读全帖

E**********e
发帖数: 1736

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

自己的电脑内存只有6G。很快想先打算升到32G（这个是必须，一定的）。考虑建多
个clusters的原因是现在的数据动不动就几十个G。一台电脑完全不够用。当然平时自
己练习项目数据不大。不过这个不是重点。重点是自己想学大数据的分析，以后说不
定向data scientist方向转。而且现在是个数据分析职位，动不动就要求matchine
learning，大数据分析工具hadoop， spark什么的。我想自己买个几个服务器，建个
多个clusters，以后就可以直接练习。把大数据学好。
amazon的aws好是好，不过不是很自由。自己学好了以后拿来跑项目，是另外一回事
情。
你的意思是一个电脑就可以用VM设置多个cluster或instances，用来跑hadoop？我自己
已经装了个singel cluster的hadoop，用的是vm虚拟机，在ubuntu上跑hadoop。挺有
意思的。不过single cluster不能把hadoop的优势体现出来，也不知自己写的python
code 是不是可以在真正的多个clusters 上的hadoop跑。能不能推荐... 阅读全帖

C*******n
发帖数: 24

来自主题: JobHunting版 - 现在去做hadoop的公司工作还有前途吗？

楼主是说写Hadoop上的Job这样的工作吗？个人感觉码农在这个方向发展有限。Hadoop
是什么？是工具。这个工具是用来干什么的？降低并行运算的门槛。降低门槛有什么好
处？无/弱编程能力者上手轻松，开发人员可以更focus在业务上而非并行运算的实现上
。所以说Hadoop框架降低了程序编写的价值。相对的，这成了一个有利于业务/模型相
关人员的领域，也就是说这个领域里统计、数学等专业的人会更具优势。个人感觉现在
是因为现在Hadoop相关职位缺口较大，所以大量码农涌入。从大方向上来看，码农在
Hadoop Job编写这个领域不占优势。当然，不否认，聪明的码农们也可以在这个领域逐
渐学会各种模型和业务，最后转型成为数据分析相关类型的人才。所以还是要看楼主你
心中的职业发展道路是怎样的了。

s*****r
发帖数: 43070

来自主题: JobHunting版 - 现在去做hadoop的公司工作还有前途吗？

你忘了BI了，搞data warehouse的主要是码农。
hadoop是个工具没错，合格的backend和BI码农，至少要熟练掌握几十种开源项目，
hadoop只是其中之一，不存在只依靠hadoop过日子的码农。
编程也不是ML或者Data scientist的强项，他们可能会用pig，但绝对不会成为hadoop
的专家。

Hadoop

w**a
发帖数: 487

来自主题: JobHunting版 - 可以用笔记本来跑hadoop VM么? (转载)

【以下文字转载自 Database 讨论区】
发信人: wawa (life is tough), 信区: Database
标题: 可以用笔记本来跑hadoop VM么?
发信站: BBS 未名空间站 (Thu Dec 5 20:55:48 2013, 美东)
准备这个寒假自己学学hadoop, 有个朋友有hadoop VM,据说有100G那么大. 我可以在笔
记本上跑hadoop么? 趁thanksgiving, 弄了个i7-4700mq + 1TB HDD的机子, 不知道够
用不够用?
另外, 请大侠们给推荐一些hadoop自学的教材, 视频和软件吧,谢谢了!

h*****a
发帖数: 1718

来自主题: JobHunting版 - Pinterest Software Engineer position for Data/Hadoop

Pinterest Data组有一个opening，希望能有合适的老中同学加入。需要对Hadoop和相
关的technology比较了解。最好至少有4年或以上的工作经验。如果感兴趣请发简历给
[email protected]
/* */
下面是job description，工作还没有在网上post出来。要求的技能比较specialized，
所以不符合的同学可能就不能refer了，抱歉先。
Pinterest Data Engineering Team is hiring Infrastructure Software Engineer.
The ideal candidate will be familiar with Hadoop, Hive, HBase, Yarn, Tez and
Spark. This position is full-time and based in our headquarter - San
Francisco, CA.
requirements:
4+ years Java programing and performance tun... 阅读全帖

z***s
发帖数: 3241

来自主题: Programming版 - 单机学习spark/hadoop的方案？

有个职位需要hadoop，我完全大数据白痴。想快速做个东西让别人看看，可能只有不到
10小时学习时间。冒昧问一句，你说的“把文件夹里所有的数据排序整合成一个文件”
，还有这个处理股票价格的，能不能展开说说怎么下手？
你还说用local node，不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块，你说的是不是MapReduce？谢谢指点。

k*****u
发帖数: 1688

来自主题: Statistics版 - 在集成的cloudera hadoop中计算词频（wordcount)

现在hadoop很火，可能好多人想学但是看见那么多复杂的配置就打退堂鼓了（确实挺耗
时间的，在ubuntu上第一次安装hadoop花了我一个晚上）。
现在cloudera出了一个集成的环境，里面包括hadoop hbase hdfs hive zookeeper等等
。只要把这个虚拟机下载下来，然后在vmware 或者 virtualbox里面打开，就可以直接
测试+学习hadoop了。
我做了一个视频用来计数词频，感兴趣的朋友可以看一下：
http://easysas.blogspot.com/2013/09/hadoop-on-cloudera-quicksta

S******y
发帖数: 1123

来自主题: Statistics版 - 十二月份上 Hadoop/Hive 实战课的同学可以与我联系

在今年的面试中， Hadoop/Hive 已成为必考的技术面试内容。
我们的Hadoop/Hive 实战课自推出以来，受到很多同学们的欢迎，已经开了多次，每
次课都报满。
应同学们要求，十二月及一月份我们在每个周六都推出Hadoop/Hive 实战课。
欢迎在这里报名
Hadoop/Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
Happy Holiday!
-StatsGuy
[email protected]
/* */

E**********e
发帖数: 1736

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

目的就是学习多cluster的hadoop。单个custer的hadoop自己可以跑了。但不敢跟人说
我会hadoop了。不高清hadoop的分布式架构的。至于数据量，不大，就是用来test。
一旦自己会真正用hadoop， hdfs，pig 是么处理大数据，同时练习machine learning
的分布式算法。
至于aws，不是个问题。自己在本机上调试好了，以后直接上aws。

S******y
发帖数: 1123

来自主题: DataSciences版 - 十二月份上 Hadoop/Hive 实战课的同学可以与我联系

d***u
发帖数: 5

来自主题: JobHunting版 - 关于学习 Hadoop , 求指点

补充一本： Hadoop in action
顺便多看一下www.cloudera.com，上面有hadoop的tutorial 和 Hadoop based
software package.
说句题外话，cloudera 这个公司吸引了很多搜索引擎和分布系统的牛人，比如 Lucene
， Solr 和 Hadoop 的部分核心开发人员都在这个公司，应该待遇不错，找工作可以考
虑下^_^
关于MapReduce，看一下google公司发布的文档比较好，很容易搜到，毕竟这是google
最先推出来的技术。
一起加油!

b*********n
发帖数: 1258

来自主题: SanFrancisco版 - 菜鸟请教个hadoop streaming job 的问题

我是hadoop 菜鸟，第一次用
我的job 就是个很简单的map job, no reducer，
mapper 也就是一些很简单的命令，会有一些输出到stderr, stdout
我的hadoop 命令output option：
"-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat " .
"-output NONE " .
map 一直fail，error message 如下，不论我是否supress所有的stderr, stdout,一直
是下面相同的error message.
那位高手可不可以指点一二。谢谢
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess
failed with code 143
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.
java:311)
at org.apac

s****d
发帖数: 56

来自主题: CS版 - 大概多大规模的数据处理有必要用到hadoop?

Hadoop的最大优点是 fault tolerance，如果你有上百台普通机器，这些机器都不是
很稳定，并且是进行一过性数据分析，用Hadoop
如果你是要在固定的数据上做不同的OLAP，建议用并行数据库，比如Teradata
Hadoop：数据加载快，但处理执行慢；每次这些都要重新加载所有数据
并行数据库：数据加载慢，但一旦加载完成，由于索引和查询优化，反复查询处理就快
了。不过并行数据库fault-tolerance不如Hadoop强

l******t
发帖数: 660

来自主题: Database版 - CINASSUG/PASS全球华人 MPP/Hadoop 2013讲座

7月31讲座, MPP(Teradata/PDW/Netezza) vs Hadoop
周三的讲座：MPP(Teradata/PDW/Netezza) vs Hadoop
时间：7/31 周三晚美中部时间8：30PM（EST 9:30PM; PST 6:30PM）
主讲：J Yang
参与方式：gotomeeting, 信息如下
Durantion, Est. 1.2 hours
(PDF/code examples will be uploaded to FTP server once the session is done.)
Level: 200
MPP vs Hadoop
Teradata/PDW/Netezza/Hadoop, what is your big data solution?
1. Please join my meeting.
https://global.gotomeeting.com/meeting/join/811276325

d**********3
发帖数: 1186

来自主题: Database版 - CINASSUG/PASS全球华人 MPP/Hadoop 2013讲座

with some correction on meeting address
MPP/Hadoop讲座时间(Re-publish)
(紧急通知，因为临时急事，讲座从7月30日换到8月一日)
8月一日讲座, MPP(Teradata/PDW/Netezza) vs Hadoop
周四的讲座：MPP(Teradata/PDW/Netezza) vs Hadoop
时间：8/1 周四晚美中部时间8：30PM（EST 9:30PM; PST 6:30PM）
参与方式：gotomeeting, 信息如下
Durantion, Est. 1.2 hours
Instructor: Jian Yang
MPP/Hadoop
1. Please join my meeting.
https://global.gotomeeting.com/meeting/join/443132701
2. Use your microphone and speakers (VoIP) - a headset is
recommended. Or, call in using your telephone. ... 阅读全帖

w**a
发帖数: 487

来自主题: Database版 - 可以用笔记本来跑hadoop VM么?

准备这个寒假自己学学hadoop, 有个朋友有hadoop VM,据说有100G那么大. 我可以在笔
记本上跑hadoop么? 趁thanksgiving, 弄了个i7-4700mq + 1TB HDD的机子, 不知道够
用不够用?
另外, 请大侠们给推荐一些hadoop自学的教材, 视频和软件吧,谢谢了!

g*******t
发帖数: 7704

来自主题: Hardware版 - 建议大家都了解一下hadoop的文件系统，就知道raid有多过时

raid是过时的东西，进入家庭肯定是过时的，
想知道网盘多少PT数据如何备份，看看hadoop，
raid是raid控制板来控制，一般是1个cpu，几个硬盘，
hadoop的文件系统是一个超级分散文件系统，可以一堆机器，也可以一个机器，里面的
文件自动分散到个机器上，自动3个备份，任何计算机坏了，替换一个机器就行，
家里的nas，都是软raid，意思是速度上没任何提高，raid本身已经是落后的系统，
如果nas支持hadoop系统，几个nas能组成hadoop，就有是更大的飞跃，

b*********n
发帖数: 1258

来自主题: Java版 - 菜鸟请教个hadoop streaming job 的问题 (转载)

【以下文字转载自 SanFrancisco 讨论区】
发信人: babyfacenan (黑土), 信区: SanFrancisco
标题: 菜鸟请教个hadoop streaming job 的问题
发信站: BBS 未名空间站 (Sat Feb 20 19:53:34 2010, 美东)
我是hadoop 菜鸟，第一次用
我的job 就是个很简单的map job, no reducer，
mapper 也就是一些很简单的命令，会有一些输出到stderr, stdout
我的hadoop 命令output option：
"-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat " .
"-output NONE " .
map 一直fail，error message 如下，不论我是否supress所有的stderr, stdout,一直
是下面相同的error message.
那位高手可不可以指点一二。谢谢
java.lang.RuntimeException: PipeMapRed.wai

b*********n
发帖数: 1258

来自主题: Programming版 - 菜鸟请教个hadoop streaming job 的问题 (转载)

w***g
发帖数: 5958

来自主题: Programming版 - Hadoop 和Python的数据分析包哪个更值得学习？

下一个anaconda就全都有了, 先scipy，然后再上scikit-learn。
不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来，
用Hadoop做各种清洗变换，不涉及任何machine learning。一般清洗完了数据量会减少
10-100倍，一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用
法来说，python是走，Hadoop是跑。两个都不会自然先要学走。

S******y
发帖数: 1123

来自主题: Statistics版 - 二月及三月上Python/R/Hadoop/Tableau课的同学请与我联系

The Hadoop/Hive class 的链接已修复.
感谢楼上！
==> Hadoop/Hive for Data Scientist Class <==
http://www.eventbrite.com/e/hadoophive-for-data-scientist-class
Hadoop/Hive培训课包括
- Installation
- Hadoop 架构及原理
- Hive 语法及实例
- Map/Reduce 原理及实例

S******y
发帖数: 1123

来自主题: Statistics版 - 二月及三月上Python/R/Hadoop/Tableau课的同学请与我联系

Data Science Training
由硅谷高科技公司任职的资深数据科学家亲自任教
Real-world example and coding will be included.
课程注重牢固清晰的概念以及极强的实用性。
Classes will be conducted via Skype. You will see instructor's screen during
the class.
已有多位同学成功转行/转型，通过课程认真掌握课程资料实践工业界实例，加上
networking, 在旧金山市及湾区找到心仪的Data Scientist 工作。
==> Hadoop/Hive for Data Scientist Class <==
http://www.eventbrite.com/e/hadoophive-for-data-scientist-class
Hadoop/Hive培训课包括
- Installation
- Hadoop 架构及原理
- Hive 语法及实例
- Map/Reduce 原理及实例
==>Python for Data Scienti... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天