l******t 发帖数: 660 | 1 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b; | l******t 发帖数: 660 | 2 这个帖子不错
不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司,
职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经
有经验的多学点技不压身, 不过观望为上 | c*********e 发帖数: 16335 | 3 big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类
的hashtable来操作?
【在 l******t 的大作中提到】 : 这个帖子不错 : 不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司, : 职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经 : 有经验的多学点技不压身, 不过观望为上
| c*****d 发帖数: 6045 | 4 是这样吗?你这个summary很简洁
【在 c*********e 的大作中提到】 : big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类 : 的hashtable来操作?
| d****n 发帖数: 12461 | 5 当然不是。
【在 c*********e 的大作中提到】 : big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类 : 的hashtable来操作?
|
|