hadoop面试和学习总结 (转载) - Database版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Database版 - hadoop面试和学习总结 (转载)

相关主题
● Hadoop面试和学习小结[2013版] (转载)	● beijing,问你个问题啊
● Hadoop/MapReduce这个板讨论么？	● 有没有BIG　DATA　的好书推荐一下？
● 请问最近几年比较火的数据库方面的topic是什么？	● MapReduce 请教：key 能用pair value吗？比如 (转载)
● 有人了解hadoop这个玩意嘛，和传统的数据库到底integration point在哪里？	● generate unique integer ID from columns in SQL table (转载
● 从传统数据库转到big data, hadoop怎么样？	● sql要到什么水平才能称得上expert或者advanced呢？
● Hadoop/MapReduce的市场需求	● 小白请教几个tableau的问题
● 关于Big Data的一点见解，大家提点意见。	● 有人用Hadoop
● 一个关于big data 系统架构的设计问题	● Re: Job with Oracle PL? (转载)

相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: combiner话题: 公司

进入Database版参与讨论

1

(共1页)

l******t 发帖数: 660	1 【以下文字转载自 JobHunting 讨论区】发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting 标题: hadoop面试和学习总结发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东) 随着大数据的盛行，Hadoop也流行起来。我面过很多hadoop相关的公司，包括一线公司 (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, 二线的（使用hadoop)：apple, expedia，comScore. 当然还有很多公司facebook, twitter, baidu, 感觉这块还是机会挺多的，我就把我知道的一些给大家分享一下。书籍和paper : 里面内容非常好，既有高屋建瓴，又有微观把握，比如mapreduce各个子阶段，经常问道join在里面也有代码实现， google的三量马车，GFS, MapReduce, BigTable 入门：知道MapReduce大致流程，map, shuffle, reduce 知道combiner, partition作用，设置compression 搭建hadoop集群，master/slave 都运行那些服务 HDFS，replica如何定位版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0 新旧API不同进阶： Hadoop 参数调优，cluster level: JVM, map/reduce slots, job level: reducer #, memory, use combiner? use compression? pig latin, Hive　简单语法 HBase, zookeeper 搭建最新：关注cloudera, hortonworks blog next generation MR2框架高可靠性,　namenode: avoid single point of failure 数据流系统：streaming storm(twitter). 演练算法： wordcount terasort 字典同位词翻译sql语句 select count(x) from a group by b;
l******t 发帖数: 660	2 这个帖子不错不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司, 职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经有经验的多学点技不压身, 不过观望为上
c*********e 发帖数: 16335	3 big data的原理就是把big data分散到多个计算机的硬盘里，然后通过mapreduce之类的hashtable来操作？【在 l******t 的大作中提到】 : 这个帖子不错 : 不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司, : 职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经 : 有经验的多学点技不压身, 不过观望为上
c*****d 发帖数: 6045	4 是这样吗？你这个summary很简洁【在 c*********e 的大作中提到】 : big data的原理就是把big data分散到多个计算机的硬盘里，然后通过mapreduce之类 : 的hashtable来操作？
d****n 发帖数: 12461	5 当然不是。【在 c*********e 的大作中提到】 : big data的原理就是把big data分散到多个计算机的硬盘里，然后通过mapreduce之类 : 的hashtable来操作？

1

(共1页)

进入Database版参与讨论

相关主题
● Re: Job with Oracle PL? (转载)	● 从传统数据库转到big data, hadoop怎么样？
● Hadoop也是个阿三名儿？	● Hadoop/MapReduce的市场需求
● 这个月底有个MPP vs hadoop 的讲座, PASS全球华人用户群	● 关于Big Data的一点见解，大家提点意见。
● Re: big data怎么搞定商业报表？ (转载)	● 一个关于big data 系统架构的设计问题
● Hadoop面试和学习小结[2013版] (转载)	● beijing,问你个问题啊
● Hadoop/MapReduce这个板讨论么？	● 有没有BIG　DATA　的好书推荐一下？
● 请问最近几年比较火的数据库方面的topic是什么？	● MapReduce 请教：key 能用pair value吗？比如 (转载)
● 有人了解hadoop这个玩意嘛，和传统的数据库到底integration point在哪里？	● generate unique integer ID from columns in SQL table (转载

相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: combiner话题: 公司

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)