Data Scientist的编程能力 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - Data Scientist的编程能力

相关主题
● scala的主场在数学应用上 (转载)	● coursera上ml的课，需要交作业吗？
● Data scientist / Machine Learning Engineer 相关面试题 (转载)	● 求教! how to run python programs on a hadoop cluster
● 招数据科学家	● 现在的大数据技术的价值和功用有些被夸大了
● 求Google 的 Data Science 有关的位置内推 (转载)	● 求handle missing data的好方法
● 怎样能才能快速的找到KNN	● 刚入行新人的两个问题
● NYC area data scientist opportunities	● 有人考虑过kaggle上这个预测CTR的题目么？
● ds要刷leecode吗，	● 请问哪些算法是可以用python写的，然后输入PMML
● 求问编程语言的选择，学stat的往DS努力	● 我想写个survey报告关于KNN classification algorithms

相关话题的讨论汇总
话题: java话题: scala话题: ds话题: 算法话题: 分布式

进入DataSciences版参与讨论

(共1页)

w**2
发帖数: 147

想请教各位大牛，Data Scientist职位面试中programming问题的难度大概是多少?
比较会问哪一类型的问题？有必要刷Leetcode吗？好纠结，才刚开始刷两天已经被虐惨
了。

j*****n
发帖数: 1545

能刷 leetcode 绝对是 big plus. 以后越来越来倾向于全能型选手，DS 和 SDE 越
来越相似. DS 更像是 Machine Learning Software Engineer

w**2
发帖数: 147

多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP，像Java和C++吗？

【在 j*****n 的大作中提到】

: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于全能型选手，DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

j*****n
发帖数: 1545

DS 很少写 C++. Java, Scala, Clojure 比较流行，Python最好知道一点，因为你
队友很多人就只会python. JS得知道点，需要做 D3, Highcharts 做visualization

【在 w**2 的大作中提到】

: 多谢。我也觉得DS和SDE越来越靠近了。DS需要精通一门OOP，像Java和C++吗？

z****e
发帖数: 54598

嗯，python随便看几个小时就能写了，写得不好而已
java需要一定时间的学习和练习才能上手，速成不来
所有人都会python，谁会java谁就有先发优势

【在 j*****n 的大作中提到】

: DS 很少写 C++. Java, Scala, Clojure 比较流行，Python最好知道一点，因为你
: 队友很多人就只会python. JS得知道点，需要做 D3, Highcharts 做visualization

w**2
发帖数: 147

好滴谢谢。

【在 z****e 的大作中提到】

: 嗯，python随便看几个小时就能写了，写得不好而已
: java需要一定时间的学习和练习才能上手，速成不来
: 所有人都会python，谁会java谁就有先发优势

w**2
发帖数: 147

谢谢。

【在 j*****n 的大作中提到】

: DS 很少写 C++. Java, Scala, Clojure 比较流行，Python最好知道一点，因为你
: 队友很多人就只会python. JS得知道点，需要做 D3, Highcharts 做visualization

P*****6
发帖数: 273

我觉得leetcode里的很多内容本身就是算法，开发算法很可能用到，就是提高运算速度
，对大数据处理也至关重要

【在 j*****n 的大作中提到】

: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于全能型选手，DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

l******n
发帖数: 9344

我觉得这是engineer的路子。ds应该侧重business，能够做东西，解释结果，有
business sense，有domain知识，能够提供决策需要的insight。
如果和se没有区别，ds的价值反而降低了

【在 j*****n 的大作中提到】

: 能刷 leetcode 绝对是 big plus. 以后越来越来倾向于全能型选手，DS 和 SDE 越
: 来越相似. DS 更像是 Machine Learning Software Engineer

j*****n
发帖数: 1545

我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。所
以好的 DS 是很全面的。

【在 l******n 的大作中提到】

: 我觉得这是engineer的路子。ds应该侧重business，能够做东西，解释结果，有
: business sense，有domain知识，能够提供决策需要的insight。
: 如果和se没有区别，ds的价值反而降低了

相关主题
● NYC area data scientist opportunities	● coursera上ml的课，需要交作业吗？
● ds要刷leecode吗，	● 求教! how to run python programs on a hadoop cluster
● 求问编程语言的选择，学stat的往DS努力	● 现在的大数据技术的价值和功用有些被夸大了
进入DataSciences版参与讨论

l******n
发帖数: 9344

人的精力有限，想做全才太难。而且在工作中的位置也决定了你不能啥都做，你要做一
个好的engineer，基本上就是说你还是埋头coding吧，等你成了好的engineer你已经被
定位了，没有人会和你谈business

【在 j*****n 的大作中提到】

: 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。所
: 以好的 DS 是很全面的。

j*****n
发帖数: 1545

争这些没有意义，自己的意见而已。自己的职业发展自己把握就好了。
我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西
很玄，并不是DS的长项，能说会道的人都可以做到，和 title，技能没有任何关系。

z****e
发帖数: 54598

那个算法不涉及分布式处理
连最基本的map reduce都没有
现在算法的趋势是分布式算法
而非单机算法，单机上的算法已经被人做烂了
已经很复杂了，其复杂度远不是leetcode能比的
再做也很难有特别大的突破
真要开发算法，leetcode在分布式环境中帮不了太大的忙
当然作为基础，你刷刷还是挺好
但是说刷过了就怎样怎样，这倒不至于

【在 P*****6 的大作中提到】

: 我觉得leetcode里的很多内容本身就是算法，开发算法很可能用到，就是提高运算速度
: ，对大数据处理也至关重要

z****e
发帖数: 54598

ppt才是精髓

【在 j*****n 的大作中提到】

: 争这些没有意义，自己的意见而已。自己的职业发展自己把握就好了。
: 我的看法就是牛逼的码工能把 DS 能做的东西全部包下来。bussiness sense 这些东西
: 很玄，并不是DS的长项，能说会道的人都可以做到，和 title，技能没有任何关系。

g*****o
发帖数: 812

很多传统的算法都不好搞分布式吧? 比如em算法

【在 z****e 的大作中提到】

: 那个算法不涉及分布式处理
: 连最基本的map reduce都没有
: 现在算法的趋势是分布式算法
: 而非单机算法，单机上的算法已经被人做烂了
: 已经很复杂了，其复杂度远不是leetcode能比的
: 再做也很难有特别大的突破
: 真要开发算法，leetcode在分布式环境中帮不了太大的忙
: 当然作为基础，你刷刷还是挺好
: 但是说刷过了就怎样怎样，这倒不至于

z****e
发帖数: 54598

对啊，所以才有机会啊，这块前人没怎么做过
所以机会大大滴有，无论是灌水还是干活

【在 g*****o 的大作中提到】

: 很多传统的算法都不好搞分布式吧? 比如em算法

g*****o
发帖数: 812

线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道

【在 z****e 的大作中提到】

: 对啊，所以才有机会啊，这块前人没怎么做过
: 所以机会大大滴有，无论是灌水还是干活

c***z
发帖数: 6348

stochastic EM
http://www.jstor.org/discover/10.2307/3318671?uid=3739560&uid=2

【在 g*****o 的大作中提到】

: 很多传统的算法都不好搞分布式吧? 比如em算法

c***z
发帖数: 6348

yes, stochastic gradient decent
http://en.wikipedia.org/wiki/Stochastic_gradient_descent

【在 g*****o 的大作中提到】

: 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道

l******n
发帖数: 9344

这和以前的hpcU做的有啥区别？又回到mpi，openmp那些东西

【在 z****e 的大作中提到】

: 对啊，所以才有机会啊，这块前人没怎么做过
: 所以机会大大滴有，无论是灌水还是干活

相关主题
● 求handle missing data的好方法	● 请问哪些算法是可以用python写的，然后输入PMML
● 刚入行新人的两个问题	● 我想写个survey报告关于KNN classification algorithms
● 有人考虑过kaggle上这个预测CTR的题目么？	● spark 问题
进入DataSciences版参与讨论

z****e
发帖数: 54598

hpc不涉及网络，是最大的区别
以后的趋势是cloud，爆nodes
分布式对于node的fail掉的容忍度比较高
或者说是自身的一部分，网络经常fail的
今天玩三国杀，就给我掉了一下，搞得我赢的打输了
hpc太贵，用不起

【在 l******n 的大作中提到】

: 这和以前的hpcU做的有啥区别？又回到mpi，openmp那些东西

z****e
发帖数: 54598

因为现实中数据不全是线性可以预测的
数据本身来源复杂，哪怕是收集都成问题
当然传统的db的integration用回归还是比较多的

【在 g*****o 的大作中提到】

: 线性回归可以分布式来算了吧? 为啥我好像也不太见到呢. 或者我不是业内人士不知道

d******e
发帖数: 7844

... ...随机算法不是分布式算法，两个概念... ...

【在 c***z 的大作中提到】

: yes, stochastic gradient decent
: http://en.wikipedia.org/wiki/Stochastic_gradient_descent

d******e
发帖数: 7844

你起码读读摘要吧... ...

【在 c***z 的大作中提到】

: stochastic EM
: http://www.jstor.org/discover/10.2307/3318671?uid=3739560&uid=2

d******e
发帖数: 7844

担心不是线性模型就上非线性的呗。
更复杂的都能分布式搞，还担心啥

【在 z****e 的大作中提到】

: 因为现实中数据不全是线性可以预测的
: 数据本身来源复杂，哪怕是收集都成问题
: 当然传统的db的integration用回归还是比较多的

l******n
发帖数: 9344

hpc一样暴node吧，而且只要不是shared memory,hpc就是一般的cluster了
“分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点，也是以前hpc缺
乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样？

【在 z****e 的大作中提到】

: hpc不涉及网络，是最大的区别
: 以后的趋势是cloud，爆nodes
: 分布式对于node的fail掉的容忍度比较高
: 或者说是自身的一部分，网络经常fail的
: 今天玩三国杀，就给我掉了一下，搞得我赢的打输了
: hpc太贵，用不起

l*******m
发帖数: 1096

现在的算法大都要求global lock, 分布做不好

【在 z****e 的大作中提到】

: 对啊，所以才有机会啊，这块前人没怎么做过
: 所以机会大大滴有，无论是灌水还是干活

z****e
发帖数: 54598

跟依赖有关
跟复杂不复杂没有必然联系
复杂的可以分布，并不代表简单的就一定也能分布

【在 d******e 的大作中提到】

: 担心不是线性模型就上非线性的呗。
: 更复杂的都能分布式搞，还担心啥

z****e
发帖数: 54598

hpc显然强过一般的分布式cluster
主要问题是价格比较贵，而且也不可能让每一台机器都成为hpc
所以才需要分布式

【在 l******n 的大作中提到】

: hpc一样暴node吧，而且只要不是shared memory,hpc就是一般的cluster了
: “分布式对于node的fail掉的容忍度比较高”这个感觉是HDFS的特点，也是以前hpc缺
: 乏的。不知道现在的cluste跑LINPACK 这种benchmark结果怎么样？

g*****o
发帖数: 812

所以最后还是要回到抽样理论里搞估计么。。？

【在 l*******m 的大作中提到】

: 现在的算法大都要求global lock, 分布做不好

相关主题
● 有关归类	● Data scientist / Machine Learning Engineer 相关面试题 (转载)
● 回馈本版~ 最近面的面经和收集来的面经~	● 招数据科学家
● scala的主场在数学应用上 (转载)	● 求Google 的 Data Science 有关的位置内推 (转载)
进入DataSciences版参与讨论

z****e
发帖数: 54598

抽样是应用
能不能分布有专门的理论
叫分布式算法
主要就研究分布式锁啊之类的
global lock是最无脑的一种锁
显然依赖很强，而且效率很低
这块还比较新，还有很大灌水的空间

【在 g*****o 的大作中提到】

: 所以最后还是要回到抽样理论里搞估计么。。？

H**r
发帖数: 10015

Leetcode就是高考差不多

【在 z****e 的大作中提到】

d******e
发帖数: 7844

那我就简单说，线性回归这种问题，分布搞完全不成问题。

【在 z****e 的大作中提到】

: 跟依赖有关
: 跟复杂不复杂没有必然联系
: 复杂的可以分布，并不代表简单的就一定也能分布

z****e
发帖数: 54598

有谁否认过这个statement了？

【在 d******e 的大作中提到】

: 那我就简单说，线性回归这种问题，分布搞完全不成问题。

d******e
发帖数: 7844

前面不是有人说没发现有人用么？

【在 z****e 的大作中提到】

: 有谁否认过这个statement了？

l******n
发帖数: 9344

什么叫搞不定？线性回归本质上就是解线性方程。对于高维的问题都有专门的parallel
的算法。

【在 d******e 的大作中提到】

: 那我就简单说，线性回归这种问题，分布搞完全不成问题。

z****e
发帖数: 54598

有没有用跟能不能用是一回事？

【在 d******e 的大作中提到】

: 前面不是有人说没发现有人用么？

d******e
发帖数: 7844

linear model有很多公司在用啊。

【在 z****e 的大作中提到】

: 有没有用跟能不能用是一回事？

n*****3
发帖数: 1584

来抛个砖头
h2o 根据 berkelry 一老中paper
实现分布式boosting, 狠牛逼，狠快
你们prediction model production 用神马，
R ，python 都慢

【在 c***z 的大作中提到】

: yes, stochastic gradient decent
: http://en.wikipedia.org/wiki/Stochastic_gradient_descent

h*****7
发帖数: 6781

我一般用C++来实现统计学习算法，当然Java也很好，我认为这是以后的必然趋势
R和python是给统计系的人用的，他们不怎么会写代码，为了不影响进度让他们用一下。
其实说句心里话，他们对项目能提供的帮助很小，对模型理解也不深入。最后做产品基
本要靠SDE自己包圆建模和实现，挺失望的。
举个简单的例子，R里面的package，很多都不考虑优化，计算方法，计算精度，
比如计算一个p value，竟然不知道拟合complementary distribution，而直接用1-cdf
，给我一串0的结果。哥，这不是什么高精尖，这只是高数啊
又比如提一个模型，让给个优化方法，smo，coor desc啥的随便，竟然说不会写，崩溃
现在一听说用R的人来参与项目，我就头疼

【在 n*****3 的大作中提到】

: 来抛个砖头
: h2o 根据 berkelry 一老中paper
: 实现分布式boosting, 狠牛逼，狠快
: 你们prediction model production 用神马，
: R ，python 都慢

相关主题
● 求Google 的 Data Science 有关的位置内推 (转载)	● ds要刷leecode吗，
● 怎样能才能快速的找到KNN	● 求问编程语言的选择，学stat的往DS努力
● NYC area data scientist opportunities	● coursera上ml的课，需要交作业吗？
进入DataSciences版参与讨论

z****e
发帖数: 54598

你应该好好搞一搞scala，分布式一定会碰java
scala提供了更多的工具，让你编译成字节码时候能够优化效率
scala做java的pkg，就类似你用c写r一样，我很看好renjin做的事
那个东西一旦做成，放到aws上去，肯定巨流行

下。
cdf

【在 h*****7 的大作中提到】

: 我一般用C++来实现统计学习算法，当然Java也很好，我认为这是以后的必然趋势
: R和python是给统计系的人用的，他们不怎么会写代码，为了不影响进度让他们用一下。
: 其实说句心里话，他们对项目能提供的帮助很小，对模型理解也不深入。最后做产品基
: 本要靠SDE自己包圆建模和实现，挺失望的。
: 举个简单的例子，R里面的package，很多都不考虑优化，计算方法，计算精度，
: 比如计算一个p value，竟然不知道拟合complementary distribution，而直接用1-cdf
: ，给我一串0的结果。哥，这不是什么高精尖，这只是高数啊
: 又比如提一个模型，让给个优化方法，smo，coor desc啥的随便，竟然说不会写，崩溃
: 现在一听说用R的人来参与项目，我就头疼

l*******m
发帖数: 1096

老赵，为什么scala比java快？

【在 z****e 的大作中提到】

: 你应该好好搞一搞scala，分布式一定会碰java
: scala提供了更多的工具，让你编译成字节码时候能够优化效率
: scala做java的pkg，就类似你用c写r一样，我很看好renjin做的事
: 那个东西一旦做成，放到aws上去，肯定巨流行
:
: 下。
: cdf

z****e
发帖数: 54598

不能说是全部，是有些
http://benchmarksgame.alioth.debian.org/u64q/scala.php
java的数学表达能力偏弱
一个**要写成Math.pow(*,2)太蛋疼了
可读性也差，scala这点上要强不少
而且scala允许自定义method name
对于r这种语法比较自由的脚本来说，scala相对比较容易做
java就折腾了点

【在 l*******m 的大作中提到】

: 老赵，为什么scala比java快？

h*****7
发帖数: 6781

大牛厉害
正在学scala配spark中，呵呵

【在 z****e 的大作中提到】

j*****n
发帖数: 1545

反正我是暂时不准备上 scala. Java 最多就是多吗点code, 但是整齐，规范。
You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

【在 z****e 的大作中提到】

: 不能说是全部，是有些
: http://benchmarksgame.alioth.debian.org/u64q/scala.php
: java的数学表达能力偏弱
: 一个**要写成Math.pow(*,2)太蛋疼了
: 可读性也差，scala这点上要强不少
: 而且scala允许自定义method name
: 对于r这种语法比较自由的脚本来说，scala相对比较容易做
: java就折腾了点

j****a
发帖数: 1277

啥paper？

【在 n*****3 的大作中提到】

: 来抛个砖头
: h2o 根据 berkelry 一老中paper
: 实现分布式boosting, 狠牛逼，狠快
: 你们prediction model production 用神马，
: R ，python 都慢

z****e
发帖数: 54598

看做啥，如果不是复杂的数学公式的实现
scala未必比java快，日常程序员的工作还是以java为主
但是如果data scientist能够写scala，并打包
这对于程序员和scientist双方来说都是好事

【在 j*****n 的大作中提到】

: 反正我是暂时不准备上 scala. Java 最多就是多吗点code, 但是整齐，规范。
: You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

n*****3
发帖数: 1584

Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing
stochastic gradient descent.” Advances in Neural Information Processing
Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers
.nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic
-gradient-descent.pdf
have not really looked into the souce code yet; but it use up 20+ threads.

【在 j****a 的大作中提到】

: 啥paper？

z****e
发帖数: 54598

不错
谁用scala把这个给实现了一下
然后挂上spark，扔到aws上去
win大了

papers
stochastic

【在 n*****3 的大作中提到】

: Niu, Feng, et al. “Hogwild!: A lock-free approach to parallelizing
: stochastic gradient descent.” Advances in Neural Information Processing
: Systems 24 (2011): 693-701. (algorithm implemented is on p.5) https://papers
: .nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-stochastic
: -gradient-descent.pdf
: have not really looked into the souce code yet; but it use up 20+ threads.

c****t
发帖数: 19049

这贴子这么火了。赞

相关主题
● 求教! how to run python programs on a hadoop cluster	● 刚入行新人的两个问题
● 现在的大数据技术的价值和功用有些被夸大了	● 有人考虑过kaggle上这个预测CTR的题目么？
● 求handle missing data的好方法	● 请问哪些算法是可以用python写的，然后输入PMML
进入DataSciences版参与讨论

j*****n
发帖数: 1545

OxData 那帮人不就用 java 写了一个么，到处吹。

【在 z****e 的大作中提到】

: 不错
: 谁用scala把这个给实现了一下
: 然后挂上spark，扔到aws上去
: win大了
:
: papers
: stochastic

h*****7
发帖数: 6781

请教：如果data scientist也写java，和其他组员或者客户交流起来是不是更方便点？
我最近也在看scala，发现除了语法简洁，concurrency做得好之外，速度上对java优势
并不明显，同为编译语言同在虚拟机上，决定了哥俩速度都是不上不下。
另外目前scala还是小众。从高中起，我从basic, pascal, C到C++，中间什么fortran,
lisp delphi ruby之类小众语言层出不穷，但都如过眼烟云。不是他们不好而是用的
人少了没人维护更新。
反观java兼容大多数平台和类库，社区庞大，以后跳槽也方便点
唯一不爽的是oracle老claim java版权，而MS就不claim C++/C#，但这是整个行业的问题

【在 z****e 的大作中提到】

: 看做啥，如果不是复杂的数学公式的实现
: scala未必比java快，日常程序员的工作还是以java为主
: 但是如果data scientist能够写scala，并打包
: 这对于程序员和scientist双方来说都是好事

h*****7
发帖数: 6781

取决于技术公司DS 还是咨询公司DS
business好训练，技术很难训练
所以技术公司DS不好找报酬也不同

【在 j*****n 的大作中提到】

: 我恰恰和你想的相反, ds 首先必须是个很好的engineer, 再谈 bussiness的东西。所
: 以好的 DS 是很全面的。

n*****3
发帖数: 1584

就是我上面说的是h2o 啊

【在 j*****n 的大作中提到】

: OxData 那帮人不就用 java 写了一个么，到处吹。

n*****3
发帖数: 1584

讲的很好的谢谢啦
统计背景的人大多数人progrsmming 不好，

下。
cdf

【在 h*****7 的大作中提到】

n*****3
发帖数: 1584

scala主要是开发效率高
可钻心在算法上

【在 j*****n 的大作中提到】

: 反正我是暂时不准备上 scala. Java 最多就是多吗点code, 但是整齐，规范。
: You save on thinking, not typing, 最后都是JVM上跑, scala 不应该比 java 快吧

e*******n
发帖数: 872

同意

【在 l******n 的大作中提到】

e*******n
发帖数: 872

说在点子上了，不同的数据分布在不同的DataNode上，但是互相之间有依赖，Map
Reduce函数都不知该咋写了。
最近搞了个基于流行学习的算法，每个数据点要有它的KNN才能算出结果，可是KNN可能
在别的Node上，求问大牛如何解决这个并行化的问题。

【在 z****e 的大作中提到】

: 跟依赖有关
: 跟复杂不复杂没有必然联系
: 复杂的可以分布，并不代表简单的就一定也能分布

z*******3
发帖数: 13709

对啊，所以赚钱啊，有能力的赶紧把握这个机会
spark上lib开发门槛挺高的，不是阿猫阿狗学个什么脚本背点算法就能搞的
如果有一个github上的project是做spark上lib的话
这写在简历上是加分的大户，对于这种人类，我觉得找份工作小意思了

【在 j*****n 的大作中提到】

: OxData 那帮人不就用 java 写了一个么，到处吹。

z*******3
发帖数: 13709

c++哪有什么版权
c#除了m$其他没有像样的it公司用，所以没啥好claim的
不过也不是没有，unity最近就被搞了一把
mono这个东西跟microsoft的关系有问题，wikipedia上写得挺好
The Free Software Foundation's Richard Stallman has stated in 2009-06-25
that "[...]we should discourage people from writing programs in C#.
Therefore, we should not include C# implementations in the default
installation of GNU/Linux distributions or in their principal ways of
installing GNOME".[85] In 2009-07-16, Brett Smith (also from the FSF) stated
that "Microsoft's patents are much more dangerous: it's the only major
software company that has declared itself the enemy of GNU/Linux and stated
its intention to attack our community with patents.", "C# represents a
unique threat to us" and "The Community Promise does nothing to change any
of this".[86]
我觉得scala远比java要难，难不少，会scala，搞java小意思
这两个不冲突，反正类库都通用，很多idea是一样的
scala可以用java得类库，反过来也一样，scala本意是better java
没有人关心你是用啥语言写得程序，最后跟客户解释的时候，人家只关心你做了什么
以及为什么这么做，这个能解释得通，运行效率上没啥问题，不会动不动出大的bugs
就可以了

fortran,
问题

【在 h*****7 的大作中提到】

: 请教：如果data scientist也写java，和其他组员或者客户交流起来是不是更方便点？
: 我最近也在看scala，发现除了语法简洁，concurrency做得好之外，速度上对java优势
: 并不明显，同为编译语言同在虚拟机上，决定了哥俩速度都是不上不下。
: 另外目前scala还是小众。从高中起，我从basic, pascal, C到C++，中间什么fortran,
: lisp delphi ruby之类小众语言层出不穷，但都如过眼烟云。不是他们不好而是用的
: 人少了没人维护更新。
: 反观java兼容大多数平台和类库，社区庞大，以后跳槽也方便点
: 唯一不爽的是oracle老claim java版权，而MS就不claim C++/C#，但这是整个行业的问题

相关主题
● 我想写个survey报告关于KNN classification algorithms	● 回馈本版~ 最近面的面经和收集来的面经~
● spark 问题	● scala的主场在数学应用上 (转载)
● 有关归类	● Data scientist / Machine Learning Engineer 相关面试题 (转载)
进入DataSciences版参与讨论

z*******3
发帖数: 13709

没有办法，我也很头疼，你有好方法的话，千万教我一下，拜谢

【在 e*******n 的大作中提到】

: 说在点子上了，不同的数据分布在不同的DataNode上，但是互相之间有依赖，Map
: Reduce函数都不知该咋写了。
: 最近搞了个基于流行学习的算法，每个数据点要有它的KNN才能算出结果，可是KNN可能
: 在别的Node上，求问大牛如何解决这个并行化的问题。

z*******3
发帖数: 13709

可惜已经被搞掂了

【在 n*****3 的大作中提到】

: 就是我上面说的是h2o 啊

z*******3
发帖数: 13709

我最近做的项目看
cloud已经把底层硬件的东西封装得差不多了
比较容易带来困扰的，对于不熟悉技术的ds来说
主要是网络协议，http，tcp，soap，这个容易卡壳
编程时候会遇到，很多程序员自己都搞不清楚
加上不少公司喜欢介入网络协议，在那边瞎搞
语言能搞懂java，之后其实差别不那么大，脚本什么都远比java简单
scala比较难，但是感觉懂scala的搞个java会比较容易
无非verbose一点了，前端的dart和swift都很容易了
照葫芦画瓢就好了
最近搞的是这些东西
dart，swift，vert.x，spark，renjin
还有cassandra和cloud，这两个都不是啥新鲜东西了
renjin还不成熟，好想让它成熟起来啊
不过三年内估计不值一战，r的pkg太多了
其他几个都上1.0了，可以搞的东西大大地多

n*****3
发帖数: 1584

还很多ml algorithm 没开发啊
要说spark 自己的ml library, 连random forest 都没有

【在 z*******3 的大作中提到】

: 可惜已经被搞掂了

l******n
发帖数: 9344

这就需要回到hpc的处理方法了，node之间的信息交换。最常用的就是mpi吧

【在 z*******3 的大作中提到】

: 没有办法，我也很头疼，你有好方法的话，千万教我一下，拜谢

c***z
发帖数: 6348

谢谢大牛指正

【在 d******e 的大作中提到】

: 你起码读读摘要吧... ...

c***z
发帖数: 6348

我觉得这归根结底在于LZ想当什么样的DS
造轮子的，还是用轮子的，还是讲关于轮子的故事的

l******n
发帖数: 9344

那个最赚钱，最有前途，最轻松

【在 c***z 的大作中提到】

: 我觉得这归根结底在于LZ想当什么样的DS
: 造轮子的，还是用轮子的，还是讲关于轮子的故事的

v****a
发帖数: 550

艾玛，经典啊。如果没有特别偏好的话，做中间那个吧，争取左右逢源

【在 c***z 的大作中提到】

: 我觉得这归根结底在于LZ想当什么样的DS
: 造轮子的，还是用轮子的，还是讲关于轮子的故事的

H****E
发帖数: 254

你们是搞开发的么？深入算法的研究是在什么职位？如果不是在学校的话？
DS的收入差距，是在上面说的造轮子还是用轮子的八？大部分用轮子就可以了。

相关主题
● Data scientist / Machine Learning Engineer 相关面试题 (转载)	● 怎样能才能快速的找到KNN
● 招数据科学家	● NYC area data scientist opportunities
● 求Google 的 Data Science 有关的位置内推 (转载)	● ds要刷leecode吗，
进入DataSciences版参与讨论

z*******3
发帖数: 13709

我感觉除了大学以及少数一些大的传统公司的研究所
比如ibm research这种，其他地方没有什么人会搞啥算法研究
都是堆轮子，大部分算法，尤其是本科生学的那些
早被人研究烂了，光开源impl就好几个，一般公司不会去搞这个

【在 H****E 的大作中提到】

: 你们是搞开发的么？深入算法的研究是在什么职位？如果不是在学校的话？
: DS的收入差距，是在上面说的造轮子还是用轮子的八？大部分用轮子就可以了。

m****D
发帖数: 686

我把那些造轮子的就是开头提到的那种偏SDE的DS称为 Data Engineer~

d******e
发帖数: 7844

原来提到优化就是SMO和Coordinate Descent，能弄点更高级的么... ...

下。
cdf

【在 h*****7 的大作中提到】

t********e
发帖数: 1169

同感，ds最大问题是不理解问题本身，对ml理解也很差
真正好用的ds是那些高盛，麦肯锡跳过来的分析师， critical thinking能力一流

下。
cdf

【在 h*****7 的大作中提到】

(共1页)

进入DataSciences版参与讨论

相关主题
● 我想写个survey报告关于KNN classification algorithms	● 怎样能才能快速的找到KNN
● spark 问题	● NYC area data scientist opportunities
● 有关归类	● ds要刷leecode吗，
● 回馈本版~ 最近面的面经和收集来的面经~	● 求问编程语言的选择，学stat的往DS努力
● scala的主场在数学应用上 (转载)	● coursera上ml的课，需要交作业吗？
● Data scientist / Machine Learning Engineer 相关面试题 (转载)	● 求教! how to run python programs on a hadoop cluster
● 招数据科学家	● 现在的大数据技术的价值和功用有些被夸大了
● 求Google 的 Data Science 有关的位置内推 (转载)	● 求handle missing data的好方法

相关话题的讨论汇总
话题: java话题: scala话题: ds话题: 算法话题: 分布式

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天