由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 聊一下data science
相关主题
google cloud 组求建议大家看过来.............
Google Ads/Search 组求收留请问有人了解Optimizely这个公司嘛
有GOOGLE员工说一下这个职位吗?请问logistic regression有哪些hyperparameter (转载)
女人做一把手肯定不行,谷歌云就是被三个女人坑了困惑,在美国了,做CRA还是念PhD?(转至药物临床实验网我的博客)
请问面试被问到 machine learning 问题时工作机会
pinterest前景如何amazon 1st phone interview
Google intern刚刚进pool,听话能干活,team match求收留问道题
offer请教求建议Perm Director of Statistics needed
相关话题的讨论汇总
话题: data话题: ds话题: ml话题: 一些话题: 方向
进入JobHunting版参与讨论
1 (共1页)
b***r
发帖数: 1
1
1. 对于data science一些general看法
现在因为各个大厂或者startup都在推applied scientist和research scientist,大家
现在似乎觉得data scientist低端,觉得做research更高大上,因为mle代码写的多,
所以现在大家似乎觉得data scientist只会python,还只能用ipython notebook,不
reproducible不工程化。还有就是从供给需求来说,data scientist是一个辅助性岗位
,需求量并没有很大,之前网上说data science开始出现“内卷”趋势。我来聊一下我
的看法。
(1)DS做啥?
首先来描述一下在一个well structured machine learning的组,data engineer, mle
和ds的分工是如何的。举个例子,一个visual search的组想做一个新的deep learning
ranking model,一般是data engineer来collect data+build data pipeline,mle来
build model并且ship into production,然后data scientist来分析这个model对
customer的一些影响,设计metrics,建dashboard,以及做一些experimental design
,和A/B测试的东西。
(2)DS适合谁?
我觉得data science比较适合analytics or 统计方向本科+硕士,统计 or 生物统计
or 运筹 phd,或者其他方向转专业的理工科phd。
像是建立dashboard或者做一些分析,现在已经有很多python package了,主要在于你
如何去讲好一个故事,这个就需要一些类似于consulting的技能,能讲好故事,能做好
presentation。analytics or 统计方向本科+硕士就比较适合这个方向。
还有一些有关于实验设计,A /B测试等等比较in depth的统计topic就比较适合统计 or
生物统计的phd,然后一些运筹方向(比如optimization方向)就比较适合operation
research的phd。
然后对于转专业的理工科phd,在coding技能不强,没有有深度的ml project的时候,
DS是tech行业最匹配的职位。
(3)DS内卷?
有人说现在DS内卷非常严重,面试者有很多啥NLP/ CV的project,就是没有offer。然
而实际上是什么呢?可能虽然写了很fancy的model,但是主要是github上面的repo改一
改(基于huggingface transformers或者torch vision)pull个pretrained model在自
己的data上finetune一下。这不是一个有深度的项目,不能说明你懂ds基础,更不能说
明你懂NLP或者CV。同时,如果一些基础的东西不明白,比如不会写SQL,不能熟练使用
pandas/ sklearn,那就只能说是眼高手低,一瓶子不满半瓶子晃荡了。这并不是内卷。
(4)转DS需要啥project?
我觉得最基本的是你的简历里面需要有一个project:1)show你会用基本的数据处理工
具,比如sql或者pyspark,2)展示你会用常见的数据分析包;3)展示你可以做好一个
分析,得到有insight的conclusion。
如果你有一定的数学基础,可以自己去实现一些ML算法,像是HMM,Gaussian Mixture
Model之类的。这是来突出自己的数学优势的,像面试官说明即使你不懂,你能学并且
你会学(数学工具你都会了)。
如果你能在现有模型的基础上,有一定创新性改进,那能证明你在熟练掌握基础的基础
上还能创新,如果能有一篇ML DL方向的论文,那就简直是在ML求职领域可以简历秒杀
了。
(5)DS想转MLE?
如果ds想转mle,那么有两个track。
1)转modeling方向的mle,我强烈建议有个domain expertise,而且这个domain需要是
一个有门槛并且应用广的domain,比如NLP/ CV/ IR/ Optimization/ Recommendation
Systems/ causal inference之类的,像是汽车能源医疗这种,基本数据都是可以抽象
成为time series data之类的常见格式,一个从来没在这个行业做过但有统计基础的人
也是可以快速进入的,但是NLP/ CV/ IR/ Optimization/ Recommendation Systems/
causal inference,进入就是有一定门槛的。
2)转ml infra方向,我一般不建议ds转这个方向,我建议sde,尤其是infra的sde转这
个方向,这个方向对于ml的要求不是很高,但是对于software infra的要求比较高。
聊聊ML Ops
我们平时在讲ML Ops的时候可能会讲一些工具,比如AWS, sagemaker, GCP, Spark,
Docker之类的。
下面我来聊聊我平时涉及到的一些ML engineering的工作吧,即使没有任何工具,只是
去完成一个DL project的话也应该去做好,当然如果有工具用工具会更省时间
(1)训练的更快,充分利用所有计算资源:大家可以去研究下torch distributed
training,即使只有一个服务器但是有多个gpu,distributed data parallel也比data
parallel快很多。还有比如mixed precision fp16 training啊,add sparsity啊都是
可以研究研究的。
(2)experiment tracking:像是tensorboard(PyTorch就是用tensorboardX)以及像
是一些工具(比如wandb weight & bias)就是帮助我们整理对照试验的,我的建议是
哪怕你不用这些,最基本也得打出来log,记录training loss和dev set上的metrics。
或者至少应该把每个实验的configuration存下来,而不是记在本子上或者excel上什么
的,因为参数很容易搞错...
(3)hyperparameter tuning:像是一些工具比如ray [tune]就是去解决这些事情的
(4)deep learning model serving:当然是可以用flask建一个最简单的online
serving,但是这个没有任何优化的online serving service latency肯定是很大的,
一些优化的online serving(比如torch serve,tf serving以及nvidia的一些serving
)就是做了优化,效果肯定会更好。
似乎现在只能想到这些,就先写这么多了~
f*******g
发帖数: 11
2
谢谢分享,介绍得挺全面的

mle
learning

【在 b***r 的大作中提到】
: 1. 对于data science一些general看法
: 现在因为各个大厂或者startup都在推applied scientist和research scientist,大家
: 现在似乎觉得data scientist低端,觉得做research更高大上,因为mle代码写的多,
: 所以现在大家似乎觉得data scientist只会python,还只能用ipython notebook,不
: reproducible不工程化。还有就是从供给需求来说,data scientist是一个辅助性岗位
: ,需求量并没有很大,之前网上说data science开始出现“内卷”趋势。我来聊一下我
: 的看法。
: (1)DS做啥?
: 首先来描述一下在一个well structured machine learning的组,data engineer, mle
: 和ds的分工是如何的。举个例子,一个visual search的组想做一个新的deep learning

1 (共1页)
进入JobHunting版参与讨论
相关主题
[Job Opening] 3D Engine Developer - Physics and Low Level Optimization请问面试被问到 machine learning 问题时
开发语言选择的问题pinterest前景如何
ipython太傻逼了 if version < '4.7': raise errorGoogle intern刚刚进pool,听话能干活,team match求收留
leetcode的oj啥时候出python 版啊offer请教求建议
google cloud 组求建议大家看过来.............
Google Ads/Search 组求收留请问有人了解Optimizely这个公司嘛
有GOOGLE员工说一下这个职位吗?请问logistic regression有哪些hyperparameter (转载)
女人做一把手肯定不行,谷歌云就是被三个女人坑了困惑,在美国了,做CRA还是念PhD?(转至药物临床实验网我的博客)
相关话题的讨论汇总
话题: data话题: ds话题: ml话题: 一些话题: 方向