由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - Data Scientist的编程能力
相关主题
scala的主场在数学应用上 (转载)coursera上ml的课,需要交作业吗?
Data scientist / Machine Learning Engineer 相关面试题 (转载)求教! how to run python programs on a hadoop cluster
招数据科学家现在的大数据技术的价值和功用有些被夸大了
求Google 的 Data Science 有关的位置内推 (转载)求handle missing data的好方法
怎样能才能快速的找到KNN刚入行新人的两个问题
NYC area data scientist opportunities有人考虑过kaggle上这个预测CTR的题目么?
ds要刷leecode吗,请问哪些算法是可以用python写的,然后输入PMML
求问编程语言的选择,学stat的往DS努力我想写个survey报告 关于KNN classification algorithms
相关话题的讨论汇总
话题: java话题: scala话题: ds话题: 算法话题: 分布式
进入DataSciences版参与讨论
1 (共1页)
w**2
发帖数: 147
1
想请教各位大牛,Data Scientist职位面试中programming问题的难度大概是多少?
比较会问哪一类型的问题?有必要刷Leetcode吗?好纠结,才刚开始刷两天已经被虐惨
了。
j*****n
发帖数: 1545
2
能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越
来越相似. DS 更像是 Machine Learning Software Engineer
w**2
发帖数: 147
3
多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP,像Java和C++吗?

【在 j*****n 的大作中提到】
: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

j*****n
发帖数: 1545
4
DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你
队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization

【在 w**2 的大作中提到】
: 多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP,像Java和C++吗?
z****e
发帖数: 54598
5
嗯,python随便看几个小时就能写了,写得不好而已
java需要一定时间的学习和练习才能上手,速成不来
所有人都会python,谁会java谁就有先发优势

【在 j*****n 的大作中提到】
: DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你
: 队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization

w**2
发帖数: 147
6
好滴谢谢。

【在 z****e 的大作中提到】
: 嗯,python随便看几个小时就能写了,写得不好而已
: java需要一定时间的学习和练习才能上手,速成不来
: 所有人都会python,谁会java谁就有先发优势

w**2
发帖数: 147
7
谢谢。

【在 j*****n 的大作中提到】
: DS 很少写 C++. Java, Scala, Clojure 比较流行,Python最好知道一点,因为你
: 队友很多人就只会python. JS得知道点,需要做 D3, Highcharts 做visualization

P*****6
发帖数: 273
8
我觉得leetcode里的很多内容本身就是算法,开发算法很可能用到,就是提高运算速度
,对大数据处理也至关重要

【在 j*****n 的大作中提到】
: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

l******n
发帖数: 9344
9
我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有
business sense,有domain知识,能够提供决策需要的insight。
如果和se没有区别,ds的价值反而降低了

【在 j*****n 的大作中提到】
: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于 全能型 选手,DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

j*****n
发帖数: 1545
10
我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所
以好的 DS 是很全面的。

【在 l******n 的大作中提到】
: 我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有
: business sense,有domain知识,能够提供决策需要的insight。
: 如果和se没有区别,ds的价值反而降低了

相关主题
NYC area data scientist opportunitiescoursera上ml的课,需要交作业吗?
ds要刷leecode吗,求教! how to run python programs on a hadoop cluster
求问编程语言的选择,学stat的往DS努力现在的大数据技术的价值和功用有些被夸大了
进入DataSciences版参与讨论
l******n
发帖数: 9344
11
人的精力有限,想做全才太难。而且在工作中的位置也决定了你不能啥都做,你要做一
个好的engineer,基本上就是说你还是埋头coding吧,等你成了好的engineer你已经被
定位了,没有人会和你谈business

【在 j*****n 的大作中提到】
: 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所
: 以好的 DS 是很全面的。

j*****n
发帖数: 1545
12
争这些没有意义,自己的意见而已。自己的职业发展自己把握就好了。
我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西
很玄,并不是DS的长项,能说会道的人都可以做到,和 title,技能没有任何关系。
z****e
发帖数: 54598
13
那个算法不涉及分布式处理
连最基本的map reduce都没有
现在算法的趋势是分布式算法
而非单机算法,单机上的算法已经被人做烂了
已经很复杂了,其复杂度远不是leetcode能比的
再做也很难有特别大的突破
真要开发算法,leetcode在分布式环境中帮不了太大的忙
当然作为基础,你刷刷还是挺好
但是说刷过了就怎样怎样,这倒不至于

【在 P*****6 的大作中提到】
: 我觉得leetcode里的很多内容本身就是算法,开发算法很可能用到,就是提高运算速度
: ,对大数据处理也至关重要

z****e
发帖数: 54598
14
ppt才是精髓

【在 j*****n 的大作中提到】
: 争这些没有意义,自己的意见而已。自己的职业发展自己把握就好了。
: 我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西
: 很玄,并不是DS的长项,能说会道的人都可以做到,和 title,技能没有任何关系。

g*****o
发帖数: 812
15
很多传统的算法都不好搞分布式吧? 比如em算法

【在 z****e 的大作中提到】
: 那个算法不涉及分布式处理
: 连最基本的map reduce都没有
: 现在算法的趋势是分布式算法
: 而非单机算法,单机上的算法已经被人做烂了
: 已经很复杂了,其复杂度远不是leetcode能比的
: 再做也很难有特别大的突破
: 真要开发算法,leetcode在分布式环境中帮不了太大的忙
: 当然作为基础,你刷刷还是挺好
: 但是说刷过了就怎样怎样,这倒不至于

z****e
发帖数: 54598
16
对啊,所以才有机会啊,这块前人没怎么做过
所以机会大大滴有,无论是灌水还是干活

【在 g*****o 的大作中提到】
: 很多传统的算法都不好搞分布式吧? 比如em算法
g*****o
发帖数: 812
17
线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道

【在 z****e 的大作中提到】
: 对啊,所以才有机会啊,这块前人没怎么做过
: 所以机会大大滴有,无论是灌水还是干活

c***z
发帖数: 6348
18
stochastic EM
http://www.jstor.org/discover/10.2307/3318671?uid=3739560&uid=2

【在 g*****o 的大作中提到】
: 很多传统的算法都不好搞分布式吧? 比如em算法
c***z
发帖数: 6348
19
yes, stochastic gradient decent
http://en.wikipedia.org/wiki/Stochastic_gradient_descent

【在 g*****o 的大作中提到】
: 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道
l******n
发帖数: 9344
20
这和以前的hpcU做的有啥区别?又回到mpi,openmp那些东西

【在 z****e 的大作中提到】
: 对啊,所以才有机会啊,这块前人没怎么做过
: 所以机会大大滴有,无论是灌水还是干活

相关主题
求handle missing data的好方法请问哪些算法是可以用python写的,然后输入PMML
刚入行新人的两个问题我想写个survey报告 关于KNN classification algorithms
有人考虑过kaggle上这个预测CTR的题目么?spark 问题
进入DataSciences版参与讨论
z****e
发帖数: 54598
21
hpc不涉及网络,是最大的区别
以后的趋势是cloud,爆nodes
分布式对于node的fail掉的容忍度比较高
或者说是自身的一部分,网络经常fail的
今天玩三国杀,就给我掉了一下,搞得我赢的打输了
hpc太贵,用不起

【在 l******n 的大作中提到】
: 这和以前的hpcU做的有啥区别?又回到mpi,openmp那些东西
z****e
发帖数: 54598
22
因为现实中数据不全是线性可以预测的
数据本身来源复杂,哪怕是收集都成问题
当然传统的db的integration用回归还是比较多的

【在 g*****o 的大作中提到】
: 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道
d******e
发帖数: 7844
23
... ...随机算法不是分布式算法,两个概念... ...

【在 c***z 的大作中提到】
: yes, stochastic gradient decent
: http://en.wikipedia.org/wiki/Stochastic_gradient_descent

d******e
发帖数: 7844
24
你起码读读摘要吧... ...

【在 c***z 的大作中提到】
: stochastic EM
: http://www.jstor.org/discover/10.2307/3318671?uid=3739560&uid=2

d******e
发帖数: 7844
25
担心不是线性模型就上非线性的呗。
更复杂的都能分布式搞,还担心啥

【在 z****e 的大作中提到】
: 因为现实中数据不全是线性可以预测的
: 数据本身来源复杂,哪怕是收集都成问题
: 当然传统的db的integration用回归还是比较多的

l******n
发帖数: 9344
26
hpc一样暴node吧,而且只要不是shared memory,hpc就是一般的cluster了
“分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点,也是以前hpc缺
乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样?

【在 z****e 的大作中提到】
: hpc不涉及网络,是最大的区别
: 以后的趋势是cloud,爆nodes
: 分布式对于node的fail掉的容忍度比较高
: 或者说是自身的一部分,网络经常fail的
: 今天玩三国杀,就给我掉了一下,搞得我赢的打输了
: hpc太贵,用不起

l*******m
发帖数: 1096
27
现在的算法大都要求global lock, 分布做不好

【在 z****e 的大作中提到】
: 对啊,所以才有机会啊,这块前人没怎么做过
: 所以机会大大滴有,无论是灌水还是干活

z****e
发帖数: 54598
28
跟依赖有关
跟复杂不复杂没有必然联系
复杂的可以分布,并不代表简单的就一定也能分布

【在 d******e 的大作中提到】
: 担心不是线性模型就上非线性的呗。
: 更复杂的都能分布式搞,还担心啥

z****e
发帖数: 54598
29
hpc显然强过一般的分布式cluster
主要问题是价格比较贵,而且也不可能让每一台机器都成为hpc
所以才需要分布式

【在 l******n 的大作中提到】
: hpc一样暴node吧,而且只要不是shared memory,hpc就是一般的cluster了
: “分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点,也是以前hpc缺
: 乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样?

g*****o
发帖数: 812
30
所以最后还是要回到抽样理论里搞估计么。。?

【在 l*******m 的大作中提到】
: 现在的算法大都要求global lock, 分布做不好
相关主题
有关归类Data scientist / Machine Learning Engineer 相关面试题 (转载)
回馈本版~ 最近面的面经和收集来的面经~招数据科学家
scala的主场在数学应用上 (转载)求Google 的 Data Science 有关的位置内推 (转载)
进入DataSciences版参与讨论
z****e
发帖数: 54598
31
抽样是应用
能不能分布有专门的理论
叫分布式算法
主要就研究分布式锁啊之类的
global lock是最无脑的一种锁
显然依赖很强,而且效率很低
这块还比较新,还有很大灌水的空间

【在 g*****o 的大作中提到】
: 所以最后还是要回到抽样理论里搞估计么。。?
H**r
发帖数: 10015
32
Leetcode就是高考差不多

【在 z****e 的大作中提到】
: 那个算法不涉及分布式处理
: 连最基本的map reduce都没有
: 现在算法的趋势是分布式算法
: 而非单机算法,单机上的算法已经被人做烂了
: 已经很复杂了,其复杂度远不是leetcode能比的
: 再做也很难有特别大的突破
: 真要开发算法,leetcode在分布式环境中帮不了太大的忙
: 当然作为基础,你刷刷还是挺好
: 但是说刷过了就怎样怎样,这倒不至于

d******e
发帖数: 7844
33
那我就简单说,线性回归这种问题,分布搞完全不成问题。

【在 z****e 的大作中提到】
: 跟依赖有关
: 跟复杂不复杂没有必然联系
: 复杂的可以分布,并不代表简单的就一定也能分布

z****e
发帖数: 54598
34
有谁否认过这个statement了?

【在 d******e 的大作中提到】
: 那我就简单说,线性回归这种问题,分布搞完全不成问题。
d******e
发帖数: 7844
35
前面不是有人说没发现有人用么?

【在 z****e 的大作中提到】
: 有谁否认过这个statement了?
l******n
发帖数: 9344
36
什么叫搞不定?线性回归本质上就是解线性方程。对于高维的问题都有专门的parallel
的算法。

【在 d******e 的大作中提到】
: 那我就简单说,线性回归这种问题,分布搞完全不成问题。
z****e
发帖数: 54598
37
有没有用跟能不能用是一回事?

【在 d******e 的大作中提到】
: 前面不是有人说没发现有人用么?
d******e
发帖数: 7844
38
linear model有很多公司在用啊。

【在 z****e 的大作中提到】
: 有没有用跟能不能用是一回事?
n*****3
发帖数: 1584
39
来抛个砖头
h2o 根据 berkelry 一老中paper
实现分布式boosting, 狠牛逼, 狠快
你们prediction model production 用神马,
R ,python 都慢

【在 c***z 的大作中提到】
: yes, stochastic gradient decent
: http://en.wikipedia.org/wiki/Stochastic_gradient_descent

h*****7
发帖数: 6781
40
我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
本要靠SDE自己包圆建模和实现,挺失望的。
举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
现在一听说用R的人来参与项目,我就头疼

【在 n*****3 的大作中提到】
: 来抛个砖头
: h2o 根据 berkelry 一老中paper
: 实现分布式boosting, 狠牛逼, 狠快
: 你们prediction model production 用神马,
: R ,python 都慢

相关主题
求Google 的 Data Science 有关的位置内推 (转载)ds要刷leecode吗,
怎样能才能快速的找到KNN求问编程语言的选择,学stat的往DS努力
NYC area data scientist opportunitiescoursera上ml的课,需要交作业吗?
进入DataSciences版参与讨论
z****e
发帖数: 54598
41
你应该好好搞一搞scala,分布式一定会碰java
scala提供了更多的工具,让你编译成字节码时候能够优化效率
scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事
那个东西一旦做成,放到aws上去,肯定巨流行

下。
cdf

【在 h*****7 的大作中提到】
: 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
: R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
: 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
: 本要靠SDE自己包圆建模和实现,挺失望的。
: 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
: 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
: ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
: 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
: 现在一听说用R的人来参与项目,我就头疼

l*******m
发帖数: 1096
42
老赵,为什么scala比java快?

【在 z****e 的大作中提到】
: 你应该好好搞一搞scala,分布式一定会碰java
: scala提供了更多的工具,让你编译成字节码时候能够优化效率
: scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事
: 那个东西一旦做成,放到aws上去,肯定巨流行
:
: 下。
: cdf

z****e
发帖数: 54598
43
不能说是全部,是有些
http://benchmarksgame.alioth.debian.org/u64q/scala.php
java的数学表达能力偏弱
一个**要写成Math.pow(*,2)太蛋疼了
可读性也差,scala这点上要强不少
而且scala允许自定义method name
对于r这种语法比较自由的脚本来说,scala相对比较容易做
java就折腾了点

【在 l*******m 的大作中提到】
: 老赵,为什么scala比java快?
h*****7
发帖数: 6781
44
大牛厉害
正在学scala配spark中,呵呵

【在 z****e 的大作中提到】
: 你应该好好搞一搞scala,分布式一定会碰java
: scala提供了更多的工具,让你编译成字节码时候能够优化效率
: scala做java的pkg,就类似你用c写r一样,我很看好renjin做的事
: 那个东西一旦做成,放到aws上去,肯定巨流行
:
: 下。
: cdf

j*****n
发帖数: 1545
45
反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。
You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

【在 z****e 的大作中提到】
: 不能说是全部,是有些
: http://benchmarksgame.alioth.debian.org/u64q/scala.php
: java的数学表达能力偏弱
: 一个**要写成Math.pow(*,2)太蛋疼了
: 可读性也差,scala这点上要强不少
: 而且scala允许自定义method name
: 对于r这种语法比较自由的脚本来说,scala相对比较容易做
: java就折腾了点

j****a
发帖数: 1277
46
啥paper?

【在 n*****3 的大作中提到】
: 来抛个砖头
: h2o 根据 berkelry 一老中paper
: 实现分布式boosting, 狠牛逼, 狠快
: 你们prediction model production 用神马,
: R ,python 都慢

z****e
发帖数: 54598
47
看做啥,如果不是复杂的数学公式的实现
scala未必比java快,日常程序员的工作还是以java为主
但是如果data scientist能够写scala,并打包
这对于程序员和scientist双方来说都是好事

【在 j*****n 的大作中提到】
: 反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。
: You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

n*****3
发帖数: 1584
48
Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing
stochastic gradient descent.” Advances in Neural Information Processing
Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers
.nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic
-gradient-descent.pdf
have not really looked into the souce code yet; but it use up 20+ threads.

【在 j****a 的大作中提到】
: 啥paper?
z****e
发帖数: 54598
49
不错
谁用scala把这个给实现了一下
然后挂上spark,扔到aws上去
win大了

papers
stochastic

【在 n*****3 的大作中提到】
: Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing
: stochastic gradient descent.” Advances in Neural Information Processing
: Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers
: .nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic
: -gradient-descent.pdf
: have not really looked into the souce code yet; but it use up 20+ threads.

c****t
发帖数: 19049
50
这贴子这么火了。赞
相关主题
求教! how to run python programs on a hadoop cluster刚入行新人的两个问题
现在的大数据技术的价值和功用有些被夸大了有人考虑过kaggle上这个预测CTR的题目么?
求handle missing data的好方法请问哪些算法是可以用python写的,然后输入PMML
进入DataSciences版参与讨论
j*****n
发帖数: 1545
51
OxData 那帮人 不就用 java 写了一个么,到处吹。

【在 z****e 的大作中提到】
: 不错
: 谁用scala把这个给实现了一下
: 然后挂上spark,扔到aws上去
: win大了
:
: papers
: stochastic

h*****7
发帖数: 6781
52
请教:如果data scientist也写java,和其他组员或者客户交流起来是不是更方便点?
我最近也在看scala,发现除了语法简洁,concurrency做得好之外,速度上对java优势
并不明显,同为编译语言同在虚拟机上,决定了哥俩速度都是不上不下。
另外目前scala还是小众。从高中起,我从basic, pascal, C到C++,中间什么fortran,
lisp delphi ruby之类小众语言层出不穷,但都如过眼烟云。不是他们不好而是用的
人少了没人维护更新。
反观java兼容大多数平台和类库,社区庞大,以后跳槽也方便点
唯一不爽的是oracle老claim java版权,而MS就不claim C++/C#,但这是整个行业的问题

【在 z****e 的大作中提到】
: 看做啥,如果不是复杂的数学公式的实现
: scala未必比java快,日常程序员的工作还是以java为主
: 但是如果data scientist能够写scala,并打包
: 这对于程序员和scientist双方来说都是好事

h*****7
发帖数: 6781
53
取决于 技术公司DS 还是 咨询公司DS
business好训练,技术很难训练
所以技术公司DS不好找 报酬也不同

【在 j*****n 的大作中提到】
: 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。 所
: 以好的 DS 是很全面的。

n*****3
发帖数: 1584
54
就是我上面说的是h2o 啊

【在 j*****n 的大作中提到】
: OxData 那帮人 不就用 java 写了一个么,到处吹。
n*****3
发帖数: 1584
55
讲的很好的谢谢啦
统计背景的人大多数人progrsmming 不好,

下。
cdf

【在 h*****7 的大作中提到】
: 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
: R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
: 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
: 本要靠SDE自己包圆建模和实现,挺失望的。
: 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
: 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
: ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
: 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
: 现在一听说用R的人来参与项目,我就头疼

n*****3
发帖数: 1584
56
scala主要是开发效率高
可钻心在算法上

【在 j*****n 的大作中提到】
: 反正我是暂时不准备 上 scala. Java 最多就是多吗点code, 但是整齐,规范。
: You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

e*******n
发帖数: 872
57
同意

【在 l******n 的大作中提到】
: 我觉得这是engineer的路子。ds应该侧重business,能够做东西,解释结果,有
: business sense,有domain知识,能够提供决策需要的insight。
: 如果和se没有区别,ds的价值反而降低了

e*******n
发帖数: 872
58
说在点子上了,不同的数据分布在不同的DataNode上,但是互相之间有依赖,Map
Reduce函数都不知该咋写了。
最近搞了个基于流行学习的算法,每个数据点要有它的KNN才能算出结果,可是KNN可能
在别的Node上,求问大牛如何解决这个并行化的问题。

【在 z****e 的大作中提到】
: 跟依赖有关
: 跟复杂不复杂没有必然联系
: 复杂的可以分布,并不代表简单的就一定也能分布

z*******3
发帖数: 13709
59
对啊,所以赚钱啊,有能力的赶紧把握这个机会
spark上lib开发门槛挺高的,不是阿猫阿狗学个什么脚本背点算法就能搞的
如果有一个github上的project是做spark上lib的话
这写在简历上是加分的大户,对于这种人类,我觉得找份工作小意思了

【在 j*****n 的大作中提到】
: OxData 那帮人 不就用 java 写了一个么,到处吹。
z*******3
发帖数: 13709
60
c++哪有什么版权
c#除了m$其他没有像样的it公司用,所以没啥好claim的
不过也不是没有,unity最近就被搞了一把
mono这个东西跟microsoft的关系有问题,wikipedia上写得挺好
The Free Software Foundation's Richard Stallman has stated in 2009-06-25
that "[...]we should discourage people from writing programs in C#.
Therefore, we should not include C# implementations in the default
installation of GNU/Linux distributions or in their principal ways of
installing GNOME".[85] In 2009-07-16, Brett Smith (also from the FSF) stated
that "Microsoft's patents are much more dangerous: it's the only major
software company that has declared itself the enemy of GNU/Linux and stated
its intention to attack our community with patents.", "C# represents a
unique threat to us" and "The Community Promise does nothing to change any
of this".[86]
我觉得scala远比java要难,难不少,会scala,搞java小意思
这两个不冲突,反正类库都通用,很多idea是一样的
scala可以用java得类库,反过来也一样,scala本意是better java
没有人关心你是用啥语言写得程序,最后跟客户解释的时候,人家只关心你做了什么
以及为什么这么做,这个能解释得通,运行效率上没啥问题,不会动不动出大的bugs
就可以了

fortran,
问题

【在 h*****7 的大作中提到】
: 请教:如果data scientist也写java,和其他组员或者客户交流起来是不是更方便点?
: 我最近也在看scala,发现除了语法简洁,concurrency做得好之外,速度上对java优势
: 并不明显,同为编译语言同在虚拟机上,决定了哥俩速度都是不上不下。
: 另外目前scala还是小众。从高中起,我从basic, pascal, C到C++,中间什么fortran,
: lisp delphi ruby之类小众语言层出不穷,但都如过眼烟云。不是他们不好而是用的
: 人少了没人维护更新。
: 反观java兼容大多数平台和类库,社区庞大,以后跳槽也方便点
: 唯一不爽的是oracle老claim java版权,而MS就不claim C++/C#,但这是整个行业的问题

相关主题
我想写个survey报告 关于KNN classification algorithms回馈本版~ 最近面的面经和收集来的面经~
spark 问题scala的主场在数学应用上 (转载)
有关归类Data scientist / Machine Learning Engineer 相关面试题 (转载)
进入DataSciences版参与讨论
z*******3
发帖数: 13709
61
没有办法,我也很头疼,你有好方法的话,千万教我一下,拜谢

【在 e*******n 的大作中提到】
: 说在点子上了,不同的数据分布在不同的DataNode上,但是互相之间有依赖,Map
: Reduce函数都不知该咋写了。
: 最近搞了个基于流行学习的算法,每个数据点要有它的KNN才能算出结果,可是KNN可能
: 在别的Node上,求问大牛如何解决这个并行化的问题。

z*******3
发帖数: 13709
62
可惜已经被搞掂了

【在 n*****3 的大作中提到】
: 就是我上面说的是h2o 啊
z*******3
发帖数: 13709
63
我最近做的项目看
cloud已经把底层硬件的东西封装得差不多了
比较容易带来困扰的,对于不熟悉技术的ds来说
主要是网络协议,http,tcp,soap,这个容易卡壳
编程时候会遇到,很多程序员自己都搞不清楚
加上不少公司喜欢介入网络协议,在那边瞎搞
语言能搞懂java,之后其实差别不那么大,脚本什么都远比java简单
scala比较难,但是感觉懂scala的搞个java会比较容易
无非verbose一点了,前端的dart和swift都很容易了
照葫芦画瓢就好了
最近搞的是这些东西
dart,swift,vert.x,spark,renjin
还有cassandra和cloud,这两个都不是啥新鲜东西了
renjin还不成熟,好想让它成熟起来啊
不过三年内估计不值一战,r的pkg太多了
其他几个都上1.0了,可以搞的东西大大地多
n*****3
发帖数: 1584
64
还很多ml algorithm 没开发啊
要说spark 自己的ml library, 连random forest 都没有

【在 z*******3 的大作中提到】
: 可惜已经被搞掂了
l******n
发帖数: 9344
65
这就需要回到hpc的处理方法了,node之间的信息交换。最常用的就是mpi吧

【在 z*******3 的大作中提到】
: 没有办法,我也很头疼,你有好方法的话,千万教我一下,拜谢
c***z
发帖数: 6348
66
谢谢大牛指正

【在 d******e 的大作中提到】
: 你起码读读摘要吧... ...
c***z
发帖数: 6348
67
我觉得这归根结底在于LZ想当什么样的DS
造轮子的,还是用轮子的,还是讲关于轮子的故事的
l******n
发帖数: 9344
68
那个最赚钱,最有前途,最轻松

【在 c***z 的大作中提到】
: 我觉得这归根结底在于LZ想当什么样的DS
: 造轮子的,还是用轮子的,还是讲关于轮子的故事的

v****a
发帖数: 550
69
艾玛,经典啊。如果没有特别偏好的话,做中间那个吧,争取左右逢源

【在 c***z 的大作中提到】
: 我觉得这归根结底在于LZ想当什么样的DS
: 造轮子的,还是用轮子的,还是讲关于轮子的故事的

H****E
发帖数: 254
70
你们是搞开发的么?深入算法的研究是在什么职位?如果不是在学校的话?
DS的收入差距,是在上面说的造轮子还是用轮子的八?大部分用轮子就可以了。
相关主题
Data scientist / Machine Learning Engineer 相关面试题 (转载)怎样能才能快速的找到KNN
招数据科学家NYC area data scientist opportunities
求Google 的 Data Science 有关的位置内推 (转载)ds要刷leecode吗,
进入DataSciences版参与讨论
z*******3
发帖数: 13709
71
我感觉除了大学以及少数一些大的传统公司的研究所
比如ibm research这种,其他地方没有什么人会搞啥算法研究
都是堆轮子,大部分算法,尤其是本科生学的那些
早被人研究烂了,光开源impl就好几个,一般公司不会去搞这个

【在 H****E 的大作中提到】
: 你们是搞开发的么?深入算法的研究是在什么职位?如果不是在学校的话?
: DS的收入差距,是在上面说的造轮子还是用轮子的八?大部分用轮子就可以了。

m****D
发帖数: 686
72
我把那些造轮子的就是开头提到的那种偏SDE的DS称为 Data Engineer~
d******e
发帖数: 7844
73
原来提到优化就是SMO和Coordinate Descent,能弄点更高级的么... ...

下。
cdf

【在 h*****7 的大作中提到】
: 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
: R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
: 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
: 本要靠SDE自己包圆建模和实现,挺失望的。
: 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
: 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
: ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
: 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
: 现在一听说用R的人来参与项目,我就头疼

t********e
发帖数: 1169
74
同感,ds最大问题是不理解问题本身,对ml理解也很差
真正好用的ds是那些高盛,麦肯锡跳过来的分析师, critical thinking能力一流

下。
cdf

【在 h*****7 的大作中提到】
: 我一般用C++来实现统计学习算法,当然Java也很好,我认为这是以后的必然趋势
: R和python是给统计系的人用的,他们不怎么会写代码,为了不影响进度让他们用一下。
: 其实说句心里话,他们对项目能提供的帮助很小,对模型理解也不深入。最后做产品基
: 本要靠SDE自己包圆建模和实现,挺失望的。
: 举个简单的例子,R里面的package,很多都不考虑优化,计算方法,计算精度,
: 比如计算一个p value,竟然不知道拟合complementary distribution,而直接用1-cdf
: ,给我一串0的结果。哥,这不是什么高精尖,这只是高数啊
: 又比如提一个模型,让给个优化方法,smo,coor desc啥的随便,竟然说不会写,崩溃
: 现在一听说用R的人来参与项目,我就头疼

1 (共1页)
进入DataSciences版参与讨论
相关主题
我想写个survey报告 关于KNN classification algorithms怎样能才能快速的找到KNN
spark 问题NYC area data scientist opportunities
有关归类ds要刷leecode吗,
回馈本版~ 最近面的面经和收集来的面经~求问编程语言的选择,学stat的往DS努力
scala的主场在数学应用上 (转载)coursera上ml的课,需要交作业吗?
Data scientist / Machine Learning Engineer 相关面试题 (转载)求教! how to run python programs on a hadoop cluster
招数据科学家现在的大数据技术的价值和功用有些被夸大了
求Google 的 Data Science 有关的位置内推 (转载)求handle missing data的好方法
相关话题的讨论汇总
话题: java话题: scala话题: ds话题: 算法话题: 分布式