由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Database版 - hadoop面试和学习总结 (转载)
相关主题
Hadoop面试和学习小结[2013版] (转载)beijing,问你个问题啊
Hadoop/MapReduce这个板讨论么?有没有BIG DATA 的好书推荐一下?
请问最近几年比较火的数据库方面的topic是什么?MapReduce 请教:key 能用pair value吗?比如 (转载)
有人了解hadoop这个玩意嘛, 和传统的数据库到底integration point在哪里?generate unique integer ID from columns in SQL table (转载
从传统数据库转到big data, hadoop怎么样?sql要到什么水平才能称得上expert或者advanced呢?
Hadoop/MapReduce的市场需求小白请教几个tableau的问题
关于Big Data的一点见解,大家提点意见。有人用Hadoop
一个关于big data 系统架构的设计问题Re: Job with Oracle PL? (转载)
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: combiner话题: 公司
进入Database版参与讨论
1 (共1页)
l******t
发帖数: 660
1
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b;
l******t
发帖数: 660
2
这个帖子不错
不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司,
职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经
有经验的多学点技不压身, 不过观望为上
c*********e
发帖数: 16335
3
big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类
的hashtable来操作?

【在 l******t 的大作中提到】
: 这个帖子不错
: 不过hadoop/big data现在还是曲高和寡, 工作机会主要在弯曲的科技/internet公司,
: 职位远远比不上传统的数据库, 不建议大家一窝蜂的上, 没有经验的可以博一下, 已经
: 有经验的多学点技不压身, 不过观望为上

c*****d
发帖数: 6045
4
是这样吗?你这个summary很简洁

【在 c*********e 的大作中提到】
: big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类
: 的hashtable来操作?

d****n
发帖数: 12461
5
当然不是。

【在 c*********e 的大作中提到】
: big data的原理就是把big data分散到多个计算机的硬盘里,然后通过mapreduce之类
: 的hashtable来操作?

1 (共1页)
进入Database版参与讨论
相关主题
Re: Job with Oracle PL? (转载)从传统数据库转到big data, hadoop怎么样?
Hadoop也是个阿三名儿?Hadoop/MapReduce的市场需求
这个月底有个MPP vs hadoop 的讲座, PASS全球华人用户群关于Big Data的一点见解,大家提点意见。
Re: big data怎么搞定商业报表? (转载)一个关于big data 系统架构的设计问题
Hadoop面试和学习小结[2013版] (转载)beijing,问你个问题啊
Hadoop/MapReduce这个板讨论么?有没有BIG DATA 的好书推荐一下?
请问最近几年比较火的数据库方面的topic是什么?MapReduce 请教:key 能用pair value吗?比如 (转载)
有人了解hadoop这个玩意嘛, 和传统的数据库到底integration point在哪里?generate unique integer ID from columns in SQL table (转载
相关话题的讨论汇总
话题: hadoop话题: mapreduce话题: combiner话题: 公司