由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - R李怎么搞big data和deep learning?
相关主题
问二爷,赵爷, 古德霸等Spark大牛 怎么Shutdown Connection Pool?Cassandra 真是狗屎
为什么facebook不用Cassandra【新手问题】Cassandra-Spark 哪个connector最好?
big data,菜凉?Apache spark online course
mapreduce, hadoop还能火几年?Spark 和 Dynamodb 之间 如何 连接
公司要做ML了,上来问问学习方向vertx3.1出来可以秒杀golang 了?
MapReduce 的思想是怎么发明的?Apache Beam bs Apache spark
Spark + C*谁有个save protocolbuf class from spark streaming to cassan (转载)
看了一点kafka各位大牛,Apache Apex 怎么样?
相关话题的讨论汇总
话题: spark话题: rserve话题: deep话题: learning话题: java
进入Programming版参与讨论
1 (共1页)
d********t
发帖数: 9628
1
啥package比较popular
z****e
发帖数: 54598
2
单线程怎么搞?
牛逼啊
上次那个用vb搞ml的可能能解答你一下下
c********1
发帖数: 421
3
这个绝对猛!

【在 z****e 的大作中提到】
: 单线程怎么搞?
: 牛逼啊
: 上次那个用vb搞ml的可能能解答你一下下

c******n
发帖数: 4965
4
好像有R 在MR mode 运行的。 听我们隔壁组说的,没有研究啊。。。

【在 d********t 的大作中提到】
: 啥package比较popular
z****e
发帖数: 54598
5
所以说一堆人就是嘴巴上吹牛可以
扯蛋什么fp之类的在行
真遇到问题,还是要看java党怎么搞
r看spark r
http://amplab-extras.github.io/SparkR-pkg/
目前做到的是可以从r里面call spark的func
spark有了,你自然就可以搞hdfs了
deep learning你要自己实现
spark目前还没有这个lib
但是r有不少统计库,你可以用
however
你要小心,r的io狠蛋疼,经常全部读入内存
big data这样搞内存直接爆了
所以说r目前只是一个toy,你别太当真
另外jvm上的renjin你也可以看看,但是离开下放prod还有很久的距离
z****e
发帖数: 54598
6
感觉你这样弄r绕不开hadoop,spark这些
怎么看都是先把java弄明白,再搞这些会容易许多
z****e
发帖数: 54598
7
r离真正prod ready还有很长很长的路要走
hadoop和spark都有python接口
用python相对r会更靠谱一点
但是明显效率上会差不少,相对于java而言
wdong自己做过不少测试,可以翻翻以前的贴
现在因为基建太差,你想不碰java就搞这些
good luck
S*******e
发帖数: 525
8
看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个
node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来
控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没
有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在
它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不
大。
z****e
发帖数: 54598
9
是不太好用
没有办法啊
r的设计就这样
单线程
而且不是一个pkg
你的优化思路也是正确的
java有办法调用r的pkg
http://rforge.net/JRI/
但是其实这样做的话,你就用了r的libs而已
仅此而已,其实你还是在写java程序,而不是r

【在 S*******e 的大作中提到】
: 看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个
: node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来
: 控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没
: 有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在
: 它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不
: 大。

z****e
发帖数: 54598
10
其实如果你不是需要特别高深的统计方法的话
你可以看看apache common math这些libs
很多功能都能替换了,但是apache commons优先做比较通用的数学工具
所以不能保证最新的统计模型会在里面有
看你需要,还有也看看
http://www.renjin.org/
虽然刚起步,没做多少,但是能用的也就先用了吧
现阶段只能这样了

【在 S*******e 的大作中提到】
: 看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个
: node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来
: 控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没
: 有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在
: 它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不
: 大。

相关主题
MapReduce 的思想是怎么发明的?Cassandra 真是狗屎
Spark + C*【新手问题】Cassandra-Spark 哪个connector最好?
看了一点kafkaApache spark online course
进入Programming版参与讨论
z****e
发帖数: 54598
m****s
发帖数: 1481
12
真要用的话先用python,java之类的在hadoop,spark上把数据压缩一下(转化成小容量
feature),再port到R里面做后续的分析。
R本身目前没什么很好的并行运算包,楼主可以看看snow package,是一个相对比较成
熟的并行计算包,不过也是需要手动分割数据给各个计算终端,没有mapreduce自动化
程度高
deep learning的话,大部分都是deep neural networks,现在还是GPU是主流,因为要
train的neuron太多了,每个neuron的计算又相对很简单,正好适合GPU核多但是单个核
计算能力和存储都弱的特点,自学下opencl或者cuda,其实跟C差不多,而且现在有一
些现成的deep learning的GPU包,这个R真的不是很适合
S*******e
发帖数: 525
13
我现在就是想用现成的R packages。我对R知道的较少,基本是“套公式”--输数据看
结果。 但 我用的package 很复杂。不是那些Apache/Java lib能够做到的。

【在 z****e 的大作中提到】
: 是不太好用
: 没有办法啊
: r的设计就这样
: 单线程
: 而且不是一个pkg
: 你的优化思路也是正确的
: java有办法调用r的pkg
: http://rforge.net/JRI/
: 但是其实这样做的话,你就用了r的libs而已
: 仅此而已,其实你还是在写java程序,而不是r

z****e
发帖数: 54598
14
r太蛋疼了
我觉得是最末尾的选择
能不用就不用了
实在不行,那就只好硬着头皮上了
上次那个说用r和vb搞ml的,我当时就给跪了
太牛了,仅次于三锅的ppt啊

【在 S*******e 的大作中提到】
: 我现在就是想用现成的R packages。我对R知道的较少,基本是“套公式”--输数据看
: 结果。 但 我用的package 很复杂。不是那些Apache/Java lib能够做到的。

S*******e
发帖数: 525
15
但 我用的R package 很复杂。不是那些Apache/Java lib能够做到的。

【在 z****e 的大作中提到】
: 其实如果你不是需要特别高深的统计方法的话
: 你可以看看apache common math这些libs
: 很多功能都能替换了,但是apache commons优先做比较通用的数学工具
: 所以不能保证最新的统计模型会在里面有
: 看你需要,还有也看看
: http://www.renjin.org/
: 虽然刚起步,没做多少,但是能用的也就先用了吧
: 现阶段只能这样了

z****e
发帖数: 54598
16
那就没办法了,硬着头皮上吧
按照你的思路做了,这里面估计狗血事情不少

【在 S*******e 的大作中提到】
: 但 我用的R package 很复杂。不是那些Apache/Java lib能够做到的。
S*******e
发帖数: 525
17
我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。

【在 z****e 的大作中提到】
: 那就没办法了,硬着头皮上吧
: 按照你的思路做了,这里面估计狗血事情不少

z****e
发帖数: 54598
18
那这个就不知道了,我也没用过

【在 S*******e 的大作中提到】
: 我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。
S*******e
发帖数: 525
19
赵大牛,知道你对运用数学和统计有极高的造诣,帮我想想怎么设计这个SPark to
RServer Connector (实际上,也就是一个Connection Pool 而已?). 我设想应该和
到RDBMS 的Connector差不多。 要不要我们一起做
个open source 库? 有其他感兴趣的吗? 这个任务似乎不用该很大。

【在 z****e 的大作中提到】
: 那这个就不知道了,我也没用过
z****e
发帖数: 54598
20
主要是我对RServe 不熟悉
不过可以试试,你是想在Spark里面做一个lib,然后这个lib能够调用RServe的方法吗?

【在 S*******e 的大作中提到】
: 赵大牛,知道你对运用数学和统计有极高的造诣,帮我想想怎么设计这个SPark to
: RServer Connector (实际上,也就是一个Connection Pool 而已?). 我设想应该和
: 到RDBMS 的Connector差不多。 要不要我们一起做
: 个open source 库? 有其他感兴趣的吗? 这个任务似乎不用该很大。

相关主题
Spark 和 Dynamodb 之间 如何 连接谁有个save protocolbuf class from spark streaming to cassan (转载)
vertx3.1出来可以秒杀golang 了?各位大牛,Apache Apex 怎么样?
Apache Beam bs Apache sparkBig data question
进入Programming版参与讨论
c****l
发帖数: 1086
21
mark
n*****3
发帖数: 1584
22
you need a server with big memory; our servers have 128G+ memories.
It sounds a lot, but not much for a company.
you can use H20 to do the deep learning; it has R language interface, and it
is impressively fast.
Rserve is the web interface for R, not sure when you have to use it ?

【在 S*******e 的大作中提到】
: 我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。
S*******e
发帖数: 525
23
“Rserve is the web interface for R, not sure when you have to use it”, 我
们说的恐怕不是一个东西。 Rserve (http://rforge.net/Rserve/doc.html) 可能是个好东西 -- 它部分克服了赵爷说的单线程问题 。

it

【在 n*****3 的大作中提到】
: you need a server with big memory; our servers have 128G+ memories.
: It sounds a lot, but not much for a company.
: you can use H20 to do the deep learning; it has R language interface, and it
: is impressively fast.
: Rserve is the web interface for R, not sure when you have to use it ?

c******g
发帖数: 4889
24
搞Big Data就忘了R吧,其实Python跟R很接近,又是搞这个首选语言之一。Java个头太
大,转起来要时间。
n*****3
发帖数: 1584
25
我觉得 R 和 python 写起来差挺多的
spark 都推 sparkr 了
我个人认为 r 是 big data prototype
first choice,

【在 c******g 的大作中提到】
: 搞Big Data就忘了R吧,其实Python跟R很接近,又是搞这个首选语言之一。Java个头太
: 大,转起来要时间。

S*******e
发帖数: 525
26
我觉得不仅仅是写起来差挺多的--R有那么多的统计分析包裹,python的统计分析包裹
有多少? 我们最近要做的是对7万多的“channel”多年数据加上每天的新数据做trend
, seasonal(每周和每季度) 和随机部分每天做分解,不用R好像不可行的。

【在 n*****3 的大作中提到】
: 我觉得 R 和 python 写起来差挺多的
: spark 都推 sparkr 了
: 我个人认为 r 是 big data prototype
: first choice,

1 (共1页)
进入Programming版参与讨论
相关主题
各位大牛,Apache Apex 怎么样?公司要做ML了,上来问问学习方向
Big data questionMapReduce 的思想是怎么发明的?
大牛们有人玩apache beam吗Spark + C*
Angularjs + Spark ?看了一点kafka
问二爷,赵爷, 古德霸等Spark大牛 怎么Shutdown Connection Pool?Cassandra 真是狗屎
为什么facebook不用Cassandra【新手问题】Cassandra-Spark 哪个connector最好?
big data,菜凉?Apache spark online course
mapreduce, hadoop还能火几年?Spark 和 Dynamodb 之间 如何 连接
相关话题的讨论汇总
话题: spark话题: rserve话题: deep话题: learning话题: java