由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 讨论,(Big)Data Engineer到底是个什么职位
相关主题
big data software engineer或者data scientist 工作机会推荐 (转载)Impala v Hive
data scientist对sql要求高吗诚心请教Spark EMR配置
请问data scientist 相关职务,面试要准备什么?征集版标
初入data science的困惑请问大家有没有直接用java全程写mapreduce的程序的?
求Hadoop项目练手你们用的都是pig吗?
请问有没有Pig Hive Hadoop SQL的速成课?如何学习Hadoop?
新手学python, 有个简单数据结构问题,在线急等Pig word count
大数据这个东西,如果用hive,岂不是跟SQL差不多了做big data一定要是Ph.d吗?
相关话题的讨论汇总
话题: data话题: engineer话题: big话题: python话题: spark
进入DataSciences版参与讨论
1 (共1页)
x****o
发帖数: 142
1
讨论下, 这个算说的靠谱吗?
----------------------------------------------
(Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类
似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/
developer。
一般市场对Data Engineer的要求是,
1, Good work experience in using SQL and databases in a business
environment.
熟知数据库技术
2, Strong experience in Data Warehouse and Business Intelligence
application development
深刻理解数据仓库/商务智能应用开发
3, Experience with scripting languages, i.e. Perl, Python etc. preferred
掌握一门语言, 一般推荐学习Python
4, Evaluate and implement various big-data technologies and solutions (Hive
/EMR, Tez, Spark) to optimize processing of extremely large datasets in an
accurate and timely fashion.
大数据的知识(Spark, HIVE, PIG…)
5, Other soft skills
简单归纳, 从以上要求来看, Data Engineer其实就是一个传统的数据库/BI开发人员
+Python+Big Data
原文, http://tinyurl.com/gwjvau9/ct-videos/data-engineer/
M********0
发帖数: 1230
2
基本差不多 但是具体工作差异很大
尤其big data engineer 要看公司具体的平台和tools 基本上hadoop ecosystem的各
种tools都要掌握
f*********r
发帖数: 30
3
感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。
b*********n
发帖数: 2975
4
more coding work than dba

感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。

【在 f*********r 的大作中提到】
: 感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
: 一些基本的数据格式转换,统计
: 但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
: 据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
: 是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
: 比跑在hadoop上的分布式并行算法还快得多。

f*********r
发帖数: 30
5
就我最近面过的两个类似职位,都是hadoop管理员这样的,包括data warehousing,
etl,和常用的数据读写界面,不太涉及真正的数据分析,但是可能需要会做简单的统
计,dash board这种
A****n
发帖数: 241
6
Data Analyst 应该是做楼上说的数据分析的,我做的其实用不上很多统计知识。
签名:
这个是材料博士后转行来的,在亚马逊做data analyst,发工作日常code (主要是R,
SQL, 以后会发Python), 可参考,亚马逊提供内推。
http://everydayds.com/
d****n
发帖数: 12461
7
这算data scientist,不算big data engineer。
我说说我们这里的big data engineer都干啥的吧:
1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig,
spark, kafka还有诸多nosql数据库不说;
2. 负责系统稳健运行;
3. 各种运行中的问题;
4. 自动化工具, 测试工具;
资深一点的在干嘛:
1. 根据系统特点设计集群大小,设计网络
2. 给BI设计UI自动生成脚本和job产生结果。
还有一些给内部用户和部分外部用户写api的,还有就是解决data scientist各种稀奇
古怪问题的。例如有的data scientist要求在avro和parquet格式之间转换,还有的
data scientist没法处理全部数据,要求帮忙取样。

【在 x****o 的大作中提到】
: 讨论下, 这个算说的靠谱吗?
: ----------------------------------------------
: (Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类
: 似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/
: developer。
: 一般市场对Data Engineer的要求是,
: 1, Good work experience in using SQL and databases in a business
: environment.
: 熟知数据库技术
: 2, Strong experience in Data Warehouse and Business Intelligence

x****o
发帖数: 142
8
收藏你这个版本

,

【在 d****n 的大作中提到】
: 这算data scientist,不算big data engineer。
: 我说说我们这里的big data engineer都干啥的吧:
: 1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig,
: spark, kafka还有诸多nosql数据库不说;
: 2. 负责系统稳健运行;
: 3. 各种运行中的问题;
: 4. 自动化工具, 测试工具;
: 资深一点的在干嘛:
: 1. 根据系统特点设计集群大小,设计网络
: 2. 给BI设计UI自动生成脚本和job产生结果。

1 (共1页)
进入DataSciences版参与讨论
相关主题
做big data一定要是Ph.d吗?求Hadoop项目练手
Pig 问题请教请问有没有Pig Hive Hadoop SQL的速成课?
有没有这样的软件?新手学python, 有个简单数据结构问题,在线急等
谁知道怎么通过JDBC让java连上hive?大数据这个东西,如果用hive,岂不是跟SQL差不多了
big data software engineer或者data scientist 工作机会推荐 (转载)Impala v Hive
data scientist对sql要求高吗诚心请教Spark EMR配置
请问data scientist 相关职务,面试要准备什么?征集版标
初入data science的困惑请问大家有没有直接用java全程写mapreduce的程序的?
相关话题的讨论汇总
话题: data话题: engineer话题: big话题: python话题: spark