d********t 发帖数: 9628 | |
z****e 发帖数: 54598 | 2 单线程怎么搞?
牛逼啊
上次那个用vb搞ml的可能能解答你一下下 |
c********1 发帖数: 421 | 3 这个绝对猛!
【在 z****e 的大作中提到】 : 单线程怎么搞? : 牛逼啊 : 上次那个用vb搞ml的可能能解答你一下下
|
c******n 发帖数: 4965 | 4 好像有R 在MR mode 运行的。 听我们隔壁组说的,没有研究啊。。。
【在 d********t 的大作中提到】 : 啥package比较popular
|
z****e 发帖数: 54598 | 5 所以说一堆人就是嘴巴上吹牛可以
扯蛋什么fp之类的在行
真遇到问题,还是要看java党怎么搞
r看spark r
http://amplab-extras.github.io/SparkR-pkg/
目前做到的是可以从r里面call spark的func
spark有了,你自然就可以搞hdfs了
deep learning你要自己实现
spark目前还没有这个lib
但是r有不少统计库,你可以用
however
你要小心,r的io狠蛋疼,经常全部读入内存
big data这样搞内存直接爆了
所以说r目前只是一个toy,你别太当真
另外jvm上的renjin你也可以看看,但是离开下放prod还有很久的距离 |
z****e 发帖数: 54598 | 6 感觉你这样弄r绕不开hadoop,spark这些
怎么看都是先把java弄明白,再搞这些会容易许多 |
z****e 发帖数: 54598 | 7 r离真正prod ready还有很长很长的路要走
hadoop和spark都有python接口
用python相对r会更靠谱一点
但是明显效率上会差不少,相对于java而言
wdong自己做过不少测试,可以翻翻以前的贴
现在因为基建太差,你想不碰java就搞这些
good luck |
S*******e 发帖数: 525 | 8 看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个
node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来
控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没
有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在
它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不
大。 |
z****e 发帖数: 54598 | 9 是不太好用
没有办法啊
r的设计就这样
单线程
而且不是一个pkg
你的优化思路也是正确的
java有办法调用r的pkg
http://rforge.net/JRI/
但是其实这样做的话,你就用了r的libs而已
仅此而已,其实你还是在写java程序,而不是r
【在 S*******e 的大作中提到】 : 看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个 : node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来 : 控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没 : 有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在 : 它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不 : 大。
|
z****e 发帖数: 54598 | 10 其实如果你不是需要特别高深的统计方法的话
你可以看看apache common math这些libs
很多功能都能替换了,但是apache commons优先做比较通用的数学工具
所以不能保证最新的统计模型会在里面有
看你需要,还有也看看
http://www.renjin.org/
虽然刚起步,没做多少,但是能用的也就先用了吧
现阶段只能这样了
【在 S*******e 的大作中提到】 : 看了Hadoop的rmr 和 SparkR, 觉得都不太好用。我想用RServe结合SPARK -- 每个有个 : node都运行一个RServer。 这样做就需要有一个在SPark的进程中Connection Pool 来 : 控制RServer可承受连接的数量。想在今后一段时间实验这个想法,大牛们看看这有没 : 有明显行不通的地方。如果可行,从java进程向R接送数据要比用SparkR方便 -- 现在 : 它只能通过文本传送。另外, 我的问题是虽然有大量的计算要R做, 但每个R任务都不 : 大。
|
|
|
z****e 发帖数: 54598 | |
m****s 发帖数: 1481 | 12 真要用的话先用python,java之类的在hadoop,spark上把数据压缩一下(转化成小容量
feature),再port到R里面做后续的分析。
R本身目前没什么很好的并行运算包,楼主可以看看snow package,是一个相对比较成
熟的并行计算包,不过也是需要手动分割数据给各个计算终端,没有mapreduce自动化
程度高
deep learning的话,大部分都是deep neural networks,现在还是GPU是主流,因为要
train的neuron太多了,每个neuron的计算又相对很简单,正好适合GPU核多但是单个核
计算能力和存储都弱的特点,自学下opencl或者cuda,其实跟C差不多,而且现在有一
些现成的deep learning的GPU包,这个R真的不是很适合 |
S*******e 发帖数: 525 | 13 我现在就是想用现成的R packages。我对R知道的较少,基本是“套公式”--输数据看
结果。 但 我用的package 很复杂。不是那些Apache/Java lib能够做到的。
【在 z****e 的大作中提到】 : 是不太好用 : 没有办法啊 : r的设计就这样 : 单线程 : 而且不是一个pkg : 你的优化思路也是正确的 : java有办法调用r的pkg : http://rforge.net/JRI/ : 但是其实这样做的话,你就用了r的libs而已 : 仅此而已,其实你还是在写java程序,而不是r
|
z****e 发帖数: 54598 | 14 r太蛋疼了
我觉得是最末尾的选择
能不用就不用了
实在不行,那就只好硬着头皮上了
上次那个说用r和vb搞ml的,我当时就给跪了
太牛了,仅次于三锅的ppt啊
【在 S*******e 的大作中提到】 : 我现在就是想用现成的R packages。我对R知道的较少,基本是“套公式”--输数据看 : 结果。 但 我用的package 很复杂。不是那些Apache/Java lib能够做到的。
|
S*******e 发帖数: 525 | 15 但 我用的R package 很复杂。不是那些Apache/Java lib能够做到的。
【在 z****e 的大作中提到】 : 其实如果你不是需要特别高深的统计方法的话 : 你可以看看apache common math这些libs : 很多功能都能替换了,但是apache commons优先做比较通用的数学工具 : 所以不能保证最新的统计模型会在里面有 : 看你需要,还有也看看 : http://www.renjin.org/ : 虽然刚起步,没做多少,但是能用的也就先用了吧 : 现阶段只能这样了
|
z****e 发帖数: 54598 | 16 那就没办法了,硬着头皮上吧
按照你的思路做了,这里面估计狗血事情不少
【在 S*******e 的大作中提到】 : 但 我用的R package 很复杂。不是那些Apache/Java lib能够做到的。
|
S*******e 发帖数: 525 | 17 我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。
【在 z****e 的大作中提到】 : 那就没办法了,硬着头皮上吧 : 按照你的思路做了,这里面估计狗血事情不少
|
z****e 发帖数: 54598 | 18 那这个就不知道了,我也没用过
【在 S*******e 的大作中提到】 : 我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。
|
S*******e 发帖数: 525 | 19 赵大牛,知道你对运用数学和统计有极高的造诣,帮我想想怎么设计这个SPark to
RServer Connector (实际上,也就是一个Connection Pool 而已?). 我设想应该和
到RDBMS 的Connector差不多。 要不要我们一起做
个open source 库? 有其他感兴趣的吗? 这个任务似乎不用该很大。
【在 z****e 的大作中提到】 : 那这个就不知道了,我也没用过
|
z****e 发帖数: 54598 | 20 主要是我对RServe 不熟悉
不过可以试试,你是想在Spark里面做一个lib,然后这个lib能够调用RServe的方法吗?
【在 S*******e 的大作中提到】 : 赵大牛,知道你对运用数学和统计有极高的造诣,帮我想想怎么设计这个SPark to : RServer Connector (实际上,也就是一个Connection Pool 而已?). 我设想应该和 : 到RDBMS 的Connector差不多。 要不要我们一起做 : 个open source 库? 有其他感兴趣的吗? 这个任务似乎不用该很大。
|
|
|
c****l 发帖数: 1086 | |
n*****3 发帖数: 1584 | 22 you need a server with big memory; our servers have 128G+ memories.
It sounds a lot, but not much for a company.
you can use H20 to do the deep learning; it has R language interface, and it
is impressively fast.
Rserve is the web interface for R, not sure when you have to use it ?
【在 S*******e 的大作中提到】 : 我说的Rserve 是 http://rforge.net/Rserve/。 曾在单机上做过一些实验,没遇到太大问题。
|
S*******e 发帖数: 525 | 23 “Rserve is the web interface for R, not sure when you have to use it”, 我
们说的恐怕不是一个东西。 Rserve (http://rforge.net/Rserve/doc.html) 可能是个好东西 -- 它部分克服了赵爷说的单线程问题 。
it
【在 n*****3 的大作中提到】 : you need a server with big memory; our servers have 128G+ memories. : It sounds a lot, but not much for a company. : you can use H20 to do the deep learning; it has R language interface, and it : is impressively fast. : Rserve is the web interface for R, not sure when you have to use it ?
|
c******g 发帖数: 4889 | 24 搞Big Data就忘了R吧,其实Python跟R很接近,又是搞这个首选语言之一。Java个头太
大,转起来要时间。 |
n*****3 发帖数: 1584 | 25 我觉得 R 和 python 写起来差挺多的
spark 都推 sparkr 了
我个人认为 r 是 big data prototype
first choice,
【在 c******g 的大作中提到】 : 搞Big Data就忘了R吧,其实Python跟R很接近,又是搞这个首选语言之一。Java个头太 : 大,转起来要时间。
|
S*******e 发帖数: 525 | 26 我觉得不仅仅是写起来差挺多的--R有那么多的统计分析包裹,python的统计分析包裹
有多少? 我们最近要做的是对7万多的“channel”多年数据加上每天的新数据做trend
, seasonal(每周和每季度) 和随机部分每天做分解,不用R好像不可行的。
【在 n*****3 的大作中提到】 : 我觉得 R 和 python 写起来差挺多的 : spark 都推 sparkr 了 : 我个人认为 r 是 big data prototype : first choice,
|