x****o 发帖数: 142 | 1 讨论下, 这个算说的靠谱吗?
----------------------------------------------
(Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类
似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/
developer。
一般市场对Data Engineer的要求是,
1, Good work experience in using SQL and databases in a business
environment.
熟知数据库技术
2, Strong experience in Data Warehouse and Business Intelligence
application development
深刻理解数据仓库/商务智能应用开发
3, Experience with scripting languages, i.e. Perl, Python etc. preferred
掌握一门语言, 一般推荐学习Python
4, Evaluate and implement various big-data technologies and solutions (Hive
/EMR, Tez, Spark) to optimize processing of extremely large datasets in an
accurate and timely fashion.
大数据的知识(Spark, HIVE, PIG…)
5, Other soft skills
简单归纳, 从以上要求来看, Data Engineer其实就是一个传统的数据库/BI开发人员
+Python+Big Data
原文, http://tinyurl.com/gwjvau9/ct-videos/data-engineer/ |
M********0 发帖数: 1230 | 2 基本差不多 但是具体工作差异很大
尤其big data engineer 要看公司具体的平台和tools 基本上hadoop ecosystem的各
种tools都要掌握 |
f*********r 发帖数: 30 | 3 感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。 |
b*********n 发帖数: 2975 | 4 more coding work than dba
感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。
【在 f*********r 的大作中提到】 : 感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和 : 一些基本的数据格式转换,统计 : 但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数 : 据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但 : 是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机 : 比跑在hadoop上的分布式并行算法还快得多。
|
f*********r 发帖数: 30 | 5 就我最近面过的两个类似职位,都是hadoop管理员这样的,包括data warehousing,
etl,和常用的数据读写界面,不太涉及真正的数据分析,但是可能需要会做简单的统
计,dash board这种 |
A****n 发帖数: 241 | 6 Data Analyst 应该是做楼上说的数据分析的,我做的其实用不上很多统计知识。
签名:
这个是材料博士后转行来的,在亚马逊做data analyst,发工作日常code (主要是R,
SQL, 以后会发Python), 可参考,亚马逊提供内推。
http://everydayds.com/ |
d****n 发帖数: 12461 | 7 这算data scientist,不算big data engineer。
我说说我们这里的big data engineer都干啥的吧:
1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig,
spark, kafka还有诸多nosql数据库不说;
2. 负责系统稳健运行;
3. 各种运行中的问题;
4. 自动化工具, 测试工具;
资深一点的在干嘛:
1. 根据系统特点设计集群大小,设计网络
2. 给BI设计UI自动生成脚本和job产生结果。
还有一些给内部用户和部分外部用户写api的,还有就是解决data scientist各种稀奇
古怪问题的。例如有的data scientist要求在avro和parquet格式之间转换,还有的
data scientist没法处理全部数据,要求帮忙取样。
【在 x****o 的大作中提到】 : 讨论下, 这个算说的靠谱吗? : ---------------------------------------------- : (Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类 : 似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/ : developer。 : 一般市场对Data Engineer的要求是, : 1, Good work experience in using SQL and databases in a business : environment. : 熟知数据库技术 : 2, Strong experience in Data Warehouse and Business Intelligence
|
x****o 发帖数: 142 | 8 收藏你这个版本
,
【在 d****n 的大作中提到】 : 这算data scientist,不算big data engineer。 : 我说说我们这里的big data engineer都干啥的吧: : 1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig, : spark, kafka还有诸多nosql数据库不说; : 2. 负责系统稳健运行; : 3. 各种运行中的问题; : 4. 自动化工具, 测试工具; : 资深一点的在干嘛: : 1. 根据系统特点设计集群大小,设计网络 : 2. 给BI设计UI自动生成脚本和job产生结果。
|