w**2 发帖数: 147 | 1 想请教各位大牛,Data Scientist职位面试中programming问题的难度大概是多少?
比较会问哪一类型的问题?有必要刷Leetcode吗?好纠结,才刚开始刷两天已经被虐惨
了。 |
j*****n 发帖数: 1545 | 2 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越
来越相似. DS 更像是 Machine Learning Software Engineer |
w**2 发帖数: 147 | 3 多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP,像Java和C++吗?
【在 j*****n 的大作中提到】 : 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越 : 来越相似. DS 更像是 Machine Learning Software Engineer
|
j*****n 发帖数: 1545 | 4 DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你
队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization
【在 w**2 的大作中提到】 : 多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP,像Java和C++吗?
|
z****e 发帖数: 54598 | 5 嗯,python随便看几个小时就能写了,写得不好而已
java需要一定时间的学习和练习才能上手,速成不来
所有人都会python,谁会java谁就有先发优势
【在 j*****n 的大作中提到】 : DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你 : 队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization
|
w**2 发帖数: 147 | 6 好滴谢谢。
【在 z****e 的大作中提到】 : 嗯,python随便看几个小时就能写了,写得不好而已 : java需要一定时间的学习和练习才能上手,速成不来 : 所有人都会python,谁会java谁就有先发优势
|
w**2 发帖数: 147 | 7 谢谢。
【在 j*****n 的大作中提到】 : DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你 : 队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization
|
P*****6 发帖数: 273 | 8 我觉得leetcode里的很多内容本身就是算法,开发算法很可能用到,就是提高运算速度
,对大数据处理也至关重要
【在 j*****n 的大作中提到】 : 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越 : 来越相似. DS 更像是 Machine Learning Software Engineer
|
l******n 发帖数: 9344 | 9 我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有
business sense,有domain知识,能够提供决策需要的insight。
如果和se没有区别,ds的价值反而降低了
【在 j*****n 的大作中提到】 : 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越 : 来越相似. DS 更像是 Machine Learning Software Engineer
|
j*****n 发帖数: 1545 | 10 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所
以好的 DS 是很全面的。
【在 l******n 的大作中提到】 : 我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有 : business sense,有domain知识,能够提供决策需要的insight。 : 如果和se没有区别,ds的价值反而降低了
|
|
|
l******n 发帖数: 9344 | 11 人的精力有限,想做全才太难。而且在工作中的位置也决定了你不能啥都做,你要做一
个好的engineer,基本上就是说你还是埋头coding吧,等你成了好的engineer你已经被
定位了,没有人会和你谈business
【在 j*****n 的大作中提到】 : 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所 : 以好的 DS 是很全面的。
|
j*****n 发帖数: 1545 | 12 争这些没有意义,自己的意见而已。自己的职业发展自己把握就好了。
我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西
很玄,并不是DS的长项,能说会道的人都可以做到,和 title,技能没有任何关系。 |
z****e 发帖数: 54598 | 13 那个算法不涉及分布式处理
连最基本的map reduce都没有
现在算法的趋势是分布式算法
而非单机算法,单机上的算法已经被人做烂了
已经很复杂了,其复杂度远不是leetcode能比的
再做也很难有特别大的突破
真要开发算法,leetcode在分布式环境中帮不了太大的忙
当然作为基础,你刷刷还是挺好
但是说刷过了就怎样怎样,这倒不至于
【在 P*****6 的大作中提到】 : 我觉得leetcode里的很多内容本身就是算法,开发算法很可能用到,就是提高运算速度 : ,对大数据处理也至关重要
|
z****e 发帖数: 54598 | 14 ppt才是精髓
【在 j*****n 的大作中提到】 : 争这些没有意义,自己的意见而已。自己的职业发展自己把握就好了。 : 我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西 : 很玄,并不是DS的长项,能说会道的人都可以做到,和 title,技能没有任何关系。
|
g*****o 发帖数: 812 | 15 很多传统的算法都不好搞分布式吧? 比如em算法
【在 z****e 的大作中提到】 : 那个算法不涉及分布式处理 : 连最基本的map reduce都没有 : 现在算法的趋势是分布式算法 : 而非单机算法,单机上的算法已经被人做烂了 : 已经很复杂了,其复杂度远不是leetcode能比的 : 再做也很难有特别大的突破 : 真要开发算法,leetcode在分布式环境中帮不了太大的忙 : 当然作为基础,你刷刷还是挺好 : 但是说刷过了就怎样怎样,这倒不至于
|
z****e 发帖数: 54598 | 16 对啊,所以才有机会啊,这块前人没怎么做过
所以机会大大滴有,无论是灌水还是干活
【在 g*****o 的大作中提到】 : 很多传统的算法都不好搞分布式吧? 比如em算法
|
g*****o 发帖数: 812 | 17 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道
【在 z****e 的大作中提到】 : 对啊,所以才有机会啊,这块前人没怎么做过 : 所以机会大大滴有,无论是灌水还是干活
|
c***z 发帖数: 6348 | |
c***z 发帖数: 6348 | 19 yes, stochastic gradient decent
http://en.wikipedia.org/wiki/Stochastic_gradient_descent
【在 g*****o 的大作中提到】 : 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道
|
l******n 发帖数: 9344 | 20 这和以前的hpcU做的有啥区别?又回到mpi,openmp那些东西
【在 z****e 的大作中提到】 : 对啊,所以才有机会啊,这块前人没怎么做过 : 所以机会大大滴有,无论是灌水还是干活
|
|
|
z****e 发帖数: 54598 | 21 hpc不涉及网络,是最大的区别
以后的趋势是cloud,爆nodes
分布式对于node的fail掉的容忍度比较高
或者说是自身的一部分,网络经常fail的
今天玩三国杀,就给我掉了一下,搞得我赢的打输了
hpc太贵,用不起
【在 l******n 的大作中提到】 : 这和以前的hpcU做的有啥区别?又回到mpi,openmp那些东西
|
z****e 发帖数: 54598 | 22 因为现实中数据不全是线性可以预测的
数据本身来源复杂,哪怕是收集都成问题
当然传统的db的integration用回归还是比较多的
【在 g*****o 的大作中提到】 : 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道
|
d******e 发帖数: 7844 | 23 ... ...随机算法不是分布式算法,两个概念... ...
【在 c***z 的大作中提到】 : yes, stochastic gradient decent : http://en.wikipedia.org/wiki/Stochastic_gradient_descent
|
d******e 发帖数: 7844 | |
d******e 发帖数: 7844 | 25 担心不是线性模型就上非线性的呗。
更复杂的都能分布式搞,还担心啥
【在 z****e 的大作中提到】 : 因为现实中数据不全是线性可以预测的 : 数据本身来源复杂,哪怕是收集都成问题 : 当然传统的db的integration用回归还是比较多的
|
l******n 发帖数: 9344 | 26 hpc一样暴node吧,而且只要不是shared memory,hpc就是一般的cluster了
“分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点,也是以前hpc缺
乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样?
【在 z****e 的大作中提到】 : hpc不涉及网络,是最大的区别 : 以后的趋势是cloud,爆nodes : 分布式对于node的fail掉的容忍度比较高 : 或者说是自身的一部分,网络经常fail的 : 今天玩三国杀,就给我掉了一下,搞得我赢的打输了 : hpc太贵,用不起
|
l*******m 发帖数: 1096 | 27 现在的算法大都要求global lock, 分布做不好
【在 z****e 的大作中提到】 : 对啊,所以才有机会啊,这块前人没怎么做过 : 所以机会大大滴有,无论是灌水还是干活
|
z****e 发帖数: 54598 | 28 跟依赖有关
跟复杂不复杂没有必然联系
复杂的可以分布,并不代表简单的就一定也能分布
【在 d******e 的大作中提到】 : 担心不是线性模型就上非线性的呗。 : 更复杂的都能分布式搞,还担心啥
|
z****e 发帖数: 54598 | 29 hpc显然强过一般的分布式cluster
主要问题是价格比较贵,而且也不可能让每一台机器都成为hpc
所以才需要分布式
【在 l******n 的大作中提到】 : hpc一样暴node吧,而且只要不是shared memory,hpc就是一般的cluster了 : “分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点,也是以前hpc缺 : 乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样?
|
g*****o 发帖数: 812 | 30 所以最后还是要回到抽样理论里搞估计么。。?
【在 l*******m 的大作中提到】 : 现在的算法大都要求global lock, 分布做不好
|
|
|
z****e 发帖数: 54598 | 31 抽样是应用
能不能分布有专门的理论
叫分布式算法
主要就研究分布式锁啊之类的
global lock是最无脑的一种锁
显然依赖很强,而且效率很低
这块还比较新,还有很大灌水的空间
【在 g*****o 的大作中提到】 : 所以最后还是要回到抽样理论里搞估计么。。?
|
H**r 发帖数: 10015 | 32 Leetcode就是高考差不多
【在 z****e 的大作中提到】 : 那个算法不涉及分布式处理 : 连最基本的map reduce都没有 : 现在算法的趋势是分布式算法 : 而非单机算法,单机上的算法已经被人做烂了 : 已经很复杂了,其复杂度远不是leetcode能比的 : 再做也很难有特别大的突破 : 真要开发算法,leetcode在分布式环境中帮不了太大的忙 : 当然作为基础,你刷刷还是挺好 : 但是说刷过了就怎样怎样,这倒不至于
|
d******e 发帖数: 7844 | 33 那我就简单说,线性回归这种问题,分布搞完全不成问题。
【在 z****e 的大作中提到】 : 跟依赖有关 : 跟复杂不复杂没有必然联系 : 复杂的可以分布,并不代表简单的就一定也能分布
|
z****e 发帖数: 54598 | 34 有谁否认过这个statement了?
【在 d******e 的大作中提到】 : 那我就简单说,线性回归这种问题,分布搞完全不成问题。
|
d******e 发帖数: 7844 | 35 前面不是有人说没发现有人用么?
【在 z****e 的大作中提到】 : 有谁否认过这个statement了?
|
l******n 发帖数: 9344 | 36 什么叫搞不定?线性回归本质上就是解线性方程。对于高维的问题都有专门的parallel
的算法。
【在 d******e 的大作中提到】 : 那我就简单说,线性回归这种问题,分布搞完全不成问题。
|
z****e 发帖数: 54598 | 37 有没有用跟能不能用是一回事?
【在 d******e 的大作中提到】 : 前面不是有人说没发现有人用么?
|
d******e 发帖数: 7844 | 38 linear model有很多公司在用啊。
【在 z****e 的大作中提到】 : 有没有用跟能不能用是一回事?
|
n*****3 发帖数: 1584 | 39 来抛个砖头
h2o 根据 berkelry 一老中paper
实现分布式boosting, 狠牛逼, 狠快
你们prediction model production 用神马,
R ,python 都慢
【在 c***z 的大作中提到】 : yes, stochastic gradient decent : http://en.wikipedia.org/wiki/Stochastic_gradient_descent
|
h*****7 发帖数: 6781 | 40 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
本要靠SDE自己包圆建模和实现,挺失望的。
举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
现在一听说用R的人来参与项目,我就头疼
【在 n*****3 的大作中提到】 : 来抛个砖头 : h2o 根据 berkelry 一老中paper : 实现分布式boosting, 狠牛逼, 狠快 : 你们prediction model production 用神马, : R ,python 都慢
|
|
|
z****e 发帖数: 54598 | 41 你应该好好搞一搞scala,分布式一定会碰java
scala提供了更多的工具,让你编译成字节码时候能够优化效率
scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事
那个东西一旦做成,放到aws上去,肯定巨流行
下。
cdf
【在 h*****7 的大作中提到】 : 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势 : R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。 : 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基 : 本要靠SDE自己包圆建模和实现,挺失望的。 : 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度, : 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf : ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊 : 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃 : 现在一听说用R的人来参与项目,我就头疼
|
l*******m 发帖数: 1096 | 42 老赵,为什么scala比java快?
【在 z****e 的大作中提到】 : 你应该好好搞一搞scala,分布式一定会碰java : scala提供了更多的工具,让你编译成字节码时候能够优化效率 : scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事 : 那个东西一旦做成,放到aws上去,肯定巨流行 : : 下。 : cdf
|
z****e 发帖数: 54598 | 43 不能说是全部,是有些
http://benchmarksgame.alioth.debian.org/u64q/scala.php
java的数学表达能力偏弱
一个**要写成Math.pow(*,2)太蛋疼了
可读性也差,scala这点上要强不少
而且scala允许自定义method name
对于r这种语法比较自由的脚本来说,scala相对比较容易做
java就折腾了点
【在 l*******m 的大作中提到】 : 老赵,为什么scala比java快?
|
h*****7 发帖数: 6781 | 44 大牛厉害
正在学scala配spark中,呵呵
【在 z****e 的大作中提到】 : 你应该好好搞一搞scala,分布式一定会碰java : scala提供了更多的工具,让你编译成字节码时候能够优化效率 : scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事 : 那个东西一旦做成,放到aws上去,肯定巨流行 : : 下。 : cdf
|
j*****n 发帖数: 1545 | 45 反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。
You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧
【在 z****e 的大作中提到】 : 不能说是全部,是有些 : http://benchmarksgame.alioth.debian.org/u64q/scala.php : java的数学表达能力偏弱 : 一个**要写成Math.pow(*,2)太蛋疼了 : 可读性也差,scala这点上要强不少 : 而且scala允许自定义method name : 对于r这种语法比较自由的脚本来说,scala相对比较容易做 : java就折腾了点
|
j****a 发帖数: 1277 | 46 啥paper?
【在 n*****3 的大作中提到】 : 来抛个砖头 : h2o 根据 berkelry 一老中paper : 实现分布式boosting, 狠牛逼, 狠快 : 你们prediction model production 用神马, : R ,python 都慢
|
z****e 发帖数: 54598 | 47 看做啥,如果不是复杂的数学公式的实现
scala未必比java快,日常程序员的工作还是以java为主
但是如果data scientist能够写scala,并打包
这对于程序员和scientist双方来说都是好事
【在 j*****n 的大作中提到】 : 反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。 : You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧
|
n*****3 发帖数: 1584 | 48 Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing
stochastic gradient descent.” Advances in Neural Information Processing
Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers
.nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic
-gradient-descent.pdf
have not really looked into the souce code yet; but it use up 20+ threads.
【在 j****a 的大作中提到】 : 啥paper?
|
z****e 发帖数: 54598 | 49 不错
谁用scala把这个给实现了一下
然后挂上spark,扔到aws上去
win大了
papers
stochastic
【在 n*****3 的大作中提到】 : Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing : stochastic gradient descent.” Advances in Neural Information Processing : Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers : .nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic : -gradient-descent.pdf : have not really looked into the souce code yet; but it use up 20+ threads.
|
c****t 发帖数: 19049 | |
|
|
j*****n 发帖数: 1545 | 51 OxData 那帮人 不就用 java 写了一个么,到处吹。
【在 z****e 的大作中提到】 : 不错 : 谁用scala把这个给实现了一下 : 然后挂上spark,扔到aws上去 : win大了 : : papers : stochastic
|
h*****7 发帖数: 6781 | 52 请教:如果data scientist也写java,和其他组员或者客户交流起来是不是更方便点?
我最近也在看scala,发现除了语法简洁,concurrency做得好之外,速度上对java优势
并不明显,同为编译语言同在虚拟机上,决定了哥俩速度都是不上不下。
另外目前scala还是小众。从高中起,我从basic, pascal, C到C++,中间什么fortran,
lisp delphi ruby之类小众语言层出不穷,但都如过眼烟云。不是他们不好而是用的
人少了没人维护更新。
反观java兼容大多数平台和类库,社区庞大,以后跳槽也方便点
唯一不爽的是oracle老claim java版权,而MS就不claim C++/C#,但这是整个行业的问题
【在 z****e 的大作中提到】 : 看做啥,如果不是复杂的数学公式的实现 : scala未必比java快,日常程序员的工作还是以java为主 : 但是如果data scientist能够写scala,并打包 : 这对于程序员和scientist双方来说都是好事
|
h*****7 发帖数: 6781 | 53 取决于 技术公司DS 还是 咨询公司DS
business好训练,技术很难训练
所以技术公司DS不好找 报酬也不同
【在 j*****n 的大作中提到】 : 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所 : 以好的 DS 是很全面的。
|
n*****3 发帖数: 1584 | 54 就是我上面说的是h2o 啊
【在 j*****n 的大作中提到】 : OxData 那帮人 不就用 java 写了一个么,到处吹。
|
n*****3 发帖数: 1584 | 55 讲的很好的谢谢啦
统计背景的人大多数人progrsmming 不好,
下。
cdf
【在 h*****7 的大作中提到】 : 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势 : R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。 : 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基 : 本要靠SDE自己包圆建模和实现,挺失望的。 : 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度, : 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf : ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊 : 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃 : 现在一听说用R的人来参与项目,我就头疼
|
n*****3 发帖数: 1584 | 56 scala主要是开发效率高
可钻心在算法上
【在 j*****n 的大作中提到】 : 反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。 : You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧
|
e*******n 发帖数: 872 | 57 同意
【在 l******n 的大作中提到】 : 我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有 : business sense,有domain知识,能够提供决策需要的insight。 : 如果和se没有区别,ds的价值反而降低了
|
e*******n 发帖数: 872 | 58 说在点子上了,不同的数据分布在不同的DataNode上,但是互相之间有依赖,Map
Reduce函数都不知该咋写了。
最近搞了个基于流行学习的算法,每个数据点要有它的KNN才能算出结果,可是KNN可能
在别的Node上,求问大牛如何解决这个并行化的问题。
【在 z****e 的大作中提到】 : 跟依赖有关 : 跟复杂不复杂没有必然联系 : 复杂的可以分布,并不代表简单的就一定也能分布
|
z*******3 发帖数: 13709 | 59 对啊,所以赚钱啊,有能力的赶紧把握这个机会
spark上lib开发门槛挺高的,不是阿猫阿狗学个什么脚本背点算法就能搞的
如果有一个github上的project是做spark上lib的话
这写在简历上是加分的大户,对于这种人类,我觉得找份工作小意思了
【在 j*****n 的大作中提到】 : OxData 那帮人 不就用 java 写了一个么,到处吹。
|
z*******3 发帖数: 13709 | 60 c++哪有什么版权
c#除了m$其他没有像样的it公司用,所以没啥好claim的
不过也不是没有,unity最近就被搞了一把
mono这个东西跟microsoft的关系有问题,wikipedia上写得挺好
The Free Software Foundation's Richard Stallman has stated in 2009-06-25
that "[...]we should discourage people from writing programs in C#.
Therefore, we should not include C# implementations in the default
installation of GNU/Linux distributions or in their principal ways of
installing GNOME".[85] In 2009-07-16, Brett Smith (also from the FSF) stated
that "Microsoft's patents are much more dangerous: it's the only major
software company that has declared itself the enemy of GNU/Linux and stated
its intention to attack our community with patents.", "C# represents a
unique threat to us" and "The Community Promise does nothing to change any
of this".[86]
我觉得scala远比java要难,难不少,会scala,搞java小意思
这两个不冲突,反正类库都通用,很多idea是一样的
scala可以用java得类库,反过来也一样,scala本意是better java
没有人关心你是用啥语言写得程序,最后跟客户解释的时候,人家只关心你做了什么
以及为什么这么做,这个能解释得通,运行效率上没啥问题,不会动不动出大的bugs
就可以了
fortran,
问题
【在 h*****7 的大作中提到】 : 请教:如果data scientist也写java,和其他组员或者客户交流起来是不是更方便点? : 我最近也在看scala,发现除了语法简洁,concurrency做得好之外,速度上对java优势 : 并不明显,同为编译语言同在虚拟机上,决定了哥俩速度都是不上不下。 : 另外目前scala还是小众。从高中起,我从basic, pascal, C到C++,中间什么fortran, : lisp delphi ruby之类小众语言层出不穷,但都如过眼烟云。不是他们不好而是用的 : 人少了没人维护更新。 : 反观java兼容大多数平台和类库,社区庞大,以后跳槽也方便点 : 唯一不爽的是oracle老claim java版权,而MS就不claim C++/C#,但这是整个行业的问题
|
|
|
z*******3 发帖数: 13709 | 61 没有办法,我也很头疼,你有好方法的话,千万教我一下,拜谢
【在 e*******n 的大作中提到】 : 说在点子上了,不同的数据分布在不同的DataNode上,但是互相之间有依赖,Map : Reduce函数都不知该咋写了。 : 最近搞了个基于流行学习的算法,每个数据点要有它的KNN才能算出结果,可是KNN可能 : 在别的Node上,求问大牛如何解决这个并行化的问题。
|
z*******3 发帖数: 13709 | 62 可惜已经被搞掂了
【在 n*****3 的大作中提到】 : 就是我上面说的是h2o 啊
|
z*******3 发帖数: 13709 | 63 我最近做的项目看
cloud已经把底层硬件的东西封装得差不多了
比较容易带来困扰的,对于不熟悉技术的ds来说
主要是网络协议,http,tcp,soap,这个容易卡壳
编程时候会遇到,很多程序员自己都搞不清楚
加上不少公司喜欢介入网络协议,在那边瞎搞
语言能搞懂java,之后其实差别不那么大,脚本什么都远比java简单
scala比较难,但是感觉懂scala的搞个java会比较容易
无非verbose一点了,前端的dart和swift都很容易了
照葫芦画瓢就好了
最近搞的是这些东西
dart,swift,vert.x,spark,renjin
还有cassandra和cloud,这两个都不是啥新鲜东西了
renjin还不成熟,好想让它成熟起来啊
不过三年内估计不值一战,r的pkg太多了
其他几个都上1.0了,可以搞的东西大大地多 |
n*****3 发帖数: 1584 | 64 还很多ml algorithm 没开发啊
要说spark 自己的ml library, 连random forest 都没有
【在 z*******3 的大作中提到】 : 可惜已经被搞掂了
|
l******n 发帖数: 9344 | 65 这就需要回到hpc的处理方法了,node之间的信息交换。最常用的就是mpi吧
【在 z*******3 的大作中提到】 : 没有办法,我也很头疼,你有好方法的话,千万教我一下,拜谢
|
c***z 发帖数: 6348 | 66 谢谢大牛指正
【在 d******e 的大作中提到】 : 你起码读读摘要吧... ...
|
c***z 发帖数: 6348 | 67 我觉得这归根结底在于LZ想当什么样的DS
造轮子的,还是用轮子的,还是讲关于轮子的故事的 |
l******n 发帖数: 9344 | 68 那个最赚钱,最有前途,最轻松
【在 c***z 的大作中提到】 : 我觉得这归根结底在于LZ想当什么样的DS : 造轮子的,还是用轮子的,还是讲关于轮子的故事的
|
v****a 发帖数: 550 | 69 艾玛,经典啊。如果没有特别偏好的话,做中间那个吧,争取左右逢源
【在 c***z 的大作中提到】 : 我觉得这归根结底在于LZ想当什么样的DS : 造轮子的,还是用轮子的,还是讲关于轮子的故事的
|
H****E 发帖数: 254 | 70 你们是搞开发的么?深入算法的研究是在什么职位?如果不是在学校的话?
DS的收入差距,是在上面说的造轮子还是用轮子的八?大部分用轮子就可以了。 |
|
|
z*******3 发帖数: 13709 | 71 我感觉除了大学以及少数一些大的传统公司的研究所
比如ibm research这种,其他地方没有什么人会搞啥算法研究
都是堆轮子,大部分算法,尤其是本科生学的那些
早被人研究烂了,光开源impl就好几个,一般公司不会去搞这个
【在 H****E 的大作中提到】 : 你们是搞开发的么?深入算法的研究是在什么职位?如果不是在学校的话? : DS的收入差距,是在上面说的造轮子还是用轮子的八?大部分用轮子就可以了。
|
m****D 发帖数: 686 | 72 我把那些造轮子的就是开头提到的那种偏SDE的DS称为 Data Engineer~ |
d******e 发帖数: 7844 | 73 原来提到优化就是SMO和Coordinate Descent,能弄点更高级的么... ...
下。
cdf
【在 h*****7 的大作中提到】 : 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势 : R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。 : 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基 : 本要靠SDE自己包圆建模和实现,挺失望的。 : 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度, : 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf : ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊 : 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃 : 现在一听说用R的人来参与项目,我就头疼
|
t********e 发帖数: 1169 | 74 同感,ds最大问题是不理解问题本身,对ml理解也很差
真正好用的ds是那些高盛,麦肯锡跳过来的分析师, critical thinking能力一流
下。
cdf
【在 h*****7 的大作中提到】 : 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势 : R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。 : 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基 : 本要靠SDE自己包圆建模和实现,挺失望的。 : 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度, : 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf : ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊 : 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃 : 现在一听说用R的人来参与项目,我就头疼
|