由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 继续纠结spark
相关主题
已经全上内存了,还要40多秒啊这里 大大牛多久学会spark?
scala/spark现在情况怎样?问一下,scala之父的那本教程怎么样?值得看么?
spark load数据速度如果不用很高级的feature,C++/Scala是否值得一战?
Hadoop 和Python的数据分析包哪个更值得学习?scala vs clojure ?
学scala和spark需要什么pre req?scala大牛入
Spark会干掉Storm吗?Scala会不会把Java搞成第二个C++
谈谈为什么上scala为什么java程序要写那么长?
公司要做ML了,上来问问学习方向上scala有一个直接的好处
相关话题的讨论汇总
话题: scala话题: spark话题: pyspark话题: python话题: 纠结
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
这两天又开始维护我那堆spark代码。发现scala已经完全不会写了。过了30,学了的
东西几天不用就会忘干净。
真是一失足成千古恨啊。要不还是用java重新写一遍得了。
N*****m
发帖数: 42603
2
记得加注释

【在 w***g 的大作中提到】
: 这两天又开始维护我那堆spark代码。发现scala已经完全不会写了。过了30,学了的
: 东西几天不用就会忘干净。
: 真是一失足成千古恨啊。要不还是用java重新写一遍得了。

N*****m
发帖数: 42603
3
其实用pyspark也挺好,比较容易懂

【在 w***g 的大作中提到】
: 这两天又开始维护我那堆spark代码。发现scala已经完全不会写了。过了30,学了的
: 东西几天不用就会忘干净。
: 真是一失足成千古恨啊。要不还是用java重新写一遍得了。

w***g
发帖数: 5958
4
速度怎么样?我刚开始就是用的pyspark,后来发现用scala快10倍以上才转的。
我们数据量还是比较大的,而且老板应该是天天盼望还能爆炸性增长。
不然我弄到一台机器上用C++算还能快点,就怕哪天真的爆炸了单机抗不住。
上次我来版上抱怨那次就已经加了注释了,并且把若干超长的行拆散了。
不然日子真的没发过了。

【在 N*****m 的大作中提到】
: 其实用pyspark也挺好,比较容易懂
w**z
发帖数: 8232
5
据李开复说 搞AI 的 能拿 200万一年。你就忍忍吧。

【在 w***g 的大作中提到】
: 这两天又开始维护我那堆spark代码。发现scala已经完全不会写了。过了30,学了的
: 东西几天不用就会忘干净。
: 真是一失足成千古恨啊。要不还是用java重新写一遍得了。

w***g
发帖数: 5958
6
别逗了,我都不知道哪倍子能赚到20万一年。再过两年,alphago能写程序了,
我们全都得失业。
好在我这穷疙瘩开销也不大。

【在 w**z 的大作中提到】
: 据李开复说 搞AI 的 能拿 200万一年。你就忍忍吧。
N*****m
发帖数: 42603
7
pyspark的性能肯定不如native jvm
但是如果你对scala不熟,未必就能写出比python快的
然后还有一些特殊的情况,比如有些库,python直接用的c libraries,这样就比scala
快了
这里有个例子:
http://stackoverflow.com/questions/32464122/spark-performance-f

【在 w***g 的大作中提到】
: 速度怎么样?我刚开始就是用的pyspark,后来发现用scala快10倍以上才转的。
: 我们数据量还是比较大的,而且老板应该是天天盼望还能爆炸性增长。
: 不然我弄到一台机器上用C++算还能快点,就怕哪天真的爆炸了单机抗不住。
: 上次我来版上抱怨那次就已经加了注释了,并且把若干超长的行拆散了。
: 不然日子真的没发过了。

N*****m
发帖数: 42603
8
鸡汤又在忽悠人

【在 w**z 的大作中提到】
: 据李开复说 搞AI 的 能拿 200万一年。你就忍忍吧。
S****8
发帖数: 401
9
wdong兄有没有搞过 spark+mpi ?
w***g
发帖数: 5958
10
一语中的!我也不是不会写scala,而是写下去一行代码不知道performance会是怎么样
的,
所以不怎么敢写。我手下那些人根本没有performance的概念,所以反而什么东西都敢
写。

scala

【在 N*****m 的大作中提到】
: pyspark的性能肯定不如native jvm
: 但是如果你对scala不熟,未必就能写出比python快的
: 然后还有一些特殊的情况,比如有些库,python直接用的c libraries,这样就比scala
: 快了
: 这里有个例子:
: http://stackoverflow.com/questions/32464122/spark-performance-f

相关主题
Spark会干掉Storm吗?这里 大大牛多久学会spark?
谈谈为什么上scala问一下,scala之父的那本教程怎么样?值得看么?
公司要做ML了,上来问问学习方向如果不用很高级的feature,C++/Scala是否值得一战?
进入Programming版参与讨论
N*****m
发帖数: 42603
11
这个怎么搞?

【在 S****8 的大作中提到】
: wdong兄有没有搞过 spark+mpi ?
w***g
发帖数: 5958
12
没搞过。有个grappa,是基于MPI的,我倒是一直想给他做个HDFS接口。今天刚刚去
查了下,这个项目感觉已经半死了。

【在 S****8 的大作中提到】
: wdong兄有没有搞过 spark+mpi ?
N*****m
发帖数: 42603
13
其实我觉得搞ML和数值计算应该是py占优
可以用的轮子比scala,java多多了,搞的优化(比如theano)也多多了

【在 w***g 的大作中提到】
: 一语中的!我也不是不会写scala,而是写下去一行代码不知道performance会是怎么样
: 的,
: 所以不怎么敢写。我手下那些人根本没有performance的概念,所以反而什么东西都敢
: 写。
:
: scala

w***g
发帖数: 5958
14
刚刚又benchmark了一下,似乎还可以忍受。转python了。

【在 N*****m 的大作中提到】
: 其实我觉得搞ML和数值计算应该是py占优
: 可以用的轮子比scala,java多多了,搞的优化(比如theano)也多多了

p**2
发帖数: 613
15
大神你还没20万一年???
伤心了,我打算转行当sales了。

【在 w***g 的大作中提到】
: 别逗了,我都不知道哪倍子能赚到20万一年。再过两年,alphago能写程序了,
: 我们全都得失业。
: 好在我这穷疙瘩开销也不大。

l*******m
发帖数: 1096
16
人家大牛是为了支持领导的事业,和我一样。。。

【在 p**2 的大作中提到】
: 大神你还没20万一年???
: 伤心了,我打算转行当sales了。

d*******r
发帖数: 3299
17
看样子 wdong 不愿给人卖命,想自由, 自己搞

【在 p**2 的大作中提到】
: 大神你还没20万一年???
: 伤心了,我打算转行当sales了。

i**********g
发帖数: 758
18
faculty?

【在 l*******m 的大作中提到】
: 人家大牛是为了支持领导的事业,和我一样。。。
1 (共1页)
进入Programming版参与讨论
相关主题
上scala有一个直接的好处学scala和spark需要什么pre req?
玩Scala需要学习Scalaz吗?Spark会干掉Storm吗?
对scala的误解谈谈为什么上scala
参加scala days的唯一感受公司要做ML了,上来问问学习方向
已经全上内存了,还要40多秒啊这里 大大牛多久学会spark?
scala/spark现在情况怎样?问一下,scala之父的那本教程怎么样?值得看么?
spark load数据速度如果不用很高级的feature,C++/Scala是否值得一战?
Hadoop 和Python的数据分析包哪个更值得学习?scala vs clojure ?
相关话题的讨论汇总
话题: scala话题: spark话题: pyspark话题: python话题: 纠结