由买买提看人间百态

topics

全部话题 - 话题: renjin
1 (共1页)
z*******3
发帖数: 13709
1
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
read this
old man
Why Renjin?
We built Renjin, a new interpreter for the JVM because we wanted the beauty,
the flexibility, and power of R with the performance of the Java Virtual
Machine.
Bigger data
R has been traditionally limited by the need to fit data sets into memory,
and working with even modest sets of data can quickly exhaust memory due to
historical limitations in GNU R interpreter’s implementation.
Renjin will allow R scripts to transparently interact with data wherever it
’s stored,... 阅读全帖
z****e
发帖数: 54598
2
看renjin就看出来了
http://www.edii.uclm.es/~useR-2013/slides/47.pdf
即便如此,renjin还是介入了byte code的编译以提速
用scala来实现的
现在随便一个脚本引擎
搬到jvm上去都能得到性能上的提升
里面有张图片,介绍了从r到c到renjin上效率的差异
然后inspired by里面看到了
jruby和pypy的符号
哼哼,python党对于ruby的鞭挞和批判是绝对错误的
z****e
发帖数: 54598
3
来自主题: Programming版 - 现在开发新网站是php还是nodejs?
如果有r的renjin成型的话,自己做也用不了多少人力和资源
我到时候会建议你用vert.x,当然自己动手加点renjin的引擎
还可以搭配一下报表生成的工具,我们有些组就多少是这么搞的
但是renjin现在还太嫩了,所以怕难堪大任
所以还是买吧,有了固定的server,其实你可选的就不多了
php一般都支持,这年头,没有什么东西不支持php的
剩下的就看bi server的脚本了
z****e
发帖数: 54598
4
来自主题: DataSciences版 - coursera上ml的课,需要交作业吗?
r跟python什么一样,也都有多个平台上的不同版本
比如python有jython和cpython一样
r也有renjin和r自带的那个运行环境
renjin我看他们的blog说是优化了loop的执行效率
而且还通过scala来优化,这个很牛逼
如果不是对bytecode非常了解的话,做不出来
renjin能做成,那对于工业界的意义是巨大的
r最早是s语言的impl,最早s是设计用来快速实现某个想法的统计语言
其本意其实就是一个统计脚本
z*******3
发帖数: 13709
5
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
r是单线程的
不止c的接口,当然也有java的接口
但是这样做只能直接call,跑还是跑在慢腾腾的r engine上
相比之下,renjin直接挂到jvm上去跑
用scala来优化loop这些
这个比较抽象
jvm就是一个平台,这个平台上只要是byte code就能跑
jvm不管是不是java写的,你用你自己的语言搞一个都行
只要最后给jvm一个byte code,它就能跑
而renjin是一个r在jvm上的引擎
简单说就是把r写的脚本,编译成byte code,然后交给jvm去执行
所以等于是绕开了java这个东西,这样做的好处就是
直接在jvm上执行,其效率会高于r自身的引擎
这里可以有多线程等操作,而r本身引擎没有这些
n******7
发帖数: 12463
6
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
这两天学java,刚看了这个库
renjin关键是能有多少人玩
这种移植型的project,总是要跟在原生project后面搞
没几个人玩的话,就没什么吸引力
干活的时候缺一个我要的包的话,我总不能为了用renjin,先自己移植一遍吧
z*******3
发帖数: 13709
7
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
总之现在弄renjin还太早
各种东东说了也没法验证
等renjin出来之后再看
如果它说得不如它做得
那这个也有问题,如果反过来
为什么不?免费工具多一个总是好的
z*******3
发帖数: 13709
8
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
你这里面的关键一步
“model做好了交给码工cache去。”
renjin就可以直接做了,renjin主要是优化这一步
gui其实挺重要,palantir的一个招牌feature就是这个
但是搞起来太费神
z*******3
发帖数: 13709
9
来自主题: DataSciences版 - Data Scientist的编程能力
我最近做的项目看
cloud已经把底层硬件的东西封装得差不多了
比较容易带来困扰的,对于不熟悉技术的ds来说
主要是网络协议,http,tcp,soap,这个容易卡壳
编程时候会遇到,很多程序员自己都搞不清楚
加上不少公司喜欢介入网络协议,在那边瞎搞
语言能搞懂java,之后其实差别不那么大,脚本什么都远比java简单
scala比较难,但是感觉懂scala的搞个java会比较容易
无非verbose一点了,前端的dart和swift都很容易了
照葫芦画瓢就好了
最近搞的是这些东西
dart,swift,vert.x,spark,renjin
还有cassandra和cloud,这两个都不是啥新鲜东西了
renjin还不成熟,好想让它成熟起来啊
不过三年内估计不值一战,r的pkg太多了
其他几个都上1.0了,可以搞的东西大大地多
z****e
发帖数: 54598
10
我倒是觉得中国适合搞big data
尤其是中国人对于数学的熟悉程度
这里说的是统计
前几天在看r在hadoop上的应用
就看ibm有类似的产品
startup里面renjin进度比较慢
spark只能用r调hadoop,而不能反过来,做得还比较低级
ibm搞这个,对老中是好事
z****e
发帖数: 54598
11
来自主题: Programming版 - 唉,看来scala已经废了
94,你们应该上vert.x,然后用renjin
就是还不成熟
z****e
发帖数: 54598
z****e
发帖数: 54598
13
来自主题: Programming版 - groovy连hello world都是法语
引擎啊引擎
脚本语言最重要的一个东西就是引擎
而scala用来写数值计算的脚本语言的引擎会有一定优势
我看renjin上面是这么说的
编译慢,但是运行时快
z****e
发帖数: 54598
14
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
那要这么说的话,都应该去用fortran
数值计算和统计本身有大量重叠的部分
实际上r的pkg也有大量的fortran写的东西
这些领域本身互相之间的界限就很模糊
如果其中一个领域得到了一定的发展
我想,其他领域也是可以借鉴和参考这个领域的发展的
r现在renjin做得很有道理
z****e
发帖数: 54598
15
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
renjin可以编译成byte code
有些硬件可以直接跑byte code啊
这个早就实现了,不过这个提升的效率很有限
真心无必要
现在r跟sas的差别已经很小了
主要差距在于
据说,这个无法严格论证
对于 超大 数据
sas比r要快
z****e
发帖数: 54598
16
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
统计这块renjin如果能做成
r应该能够摆脱以往只有学术界才用的传统形象
z****e
发帖数: 54598
17
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
用了jvm就好了
这方面jvm是行家
所以我看好renjin
z****e
发帖数: 54598
18
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
r主要是给统计的人用的
所以结合统计这个学科看
三纬成像什么需求不怎么高
现在工业界对于统计这个学科的需求空前高涨
主要是big data的流行
ai/ml都需要用到大量的统计
而r本身在工业界要做集成什么很难搞
因为r本身很慢
怎么优化都弱,这一行比较赚钱的是sas
骗了不少钱走
所以renjin很有必要弄出来,弄出来之后
被冲击最大的肯定不是matlab之类的
sas肯定首当其冲
所以对比matlab有些苹果比橘子
倒是python vs matlab有一定可能性
n*****3
发帖数: 1584
19
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
One major diff is R is open source, you can
write c/c++ code calling R header/library directly,
in this way, with c/c++, you can build some
performance critical system without 再造轮子.
我 很好奇renjin 会怎样, 因为 R 和 C/C++
关系 像 python 和 C/C++;
他们 和 JVM/java
不是一挂的.
I guess matlab can not do that? I do not use matlab myself.
z*******3
发帖数: 13709
20
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
take a look at what i posted before
there is a graph
r vs c vs renjin
z*******3
发帖数: 13709
21
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
等renjin稍微成熟点,我们自己试试
好不好?
你们这种老头子对于新生事物接受得很慢
c****t
发帖数: 19049
22
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
赵老师说的太高深看不懂。去renjin网站上转了一圈好像就是说要把R弄到前端嘛。据
说用时减半?这个真心没用。赵老师知道传统统计,Bayesian统计,machine learning
,time-series和mathematical programming计算最heavy的地方都是哪些么?过去是都
用FORTRAN/C加速。说实话对现在的数据量不够。除了Bayesian,现在的方向都是用硬件
加速。Bayesian基本上没法用并行加速,工业界用不上。最后硬件发达了估计会倒退回
去算数值积分嘿嘿
r目前能用的packages背后都是FORTRAN,C。算法都是没法并行的传统优化。看不出弄到
JVM上有啥帮助。
matlab在工业界没啥影响力。过去Excel不行的时候做finance的把matlab当个大的
spreadsheet用
z*******3
发帖数: 13709
23
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
换一种方式跟你说
前端是给脚本去做的
jvm不负责前端,也就是jvm很多时候
不负责网页的处理,而负责复杂的逻辑计算
那现在这里有一个问题
企业内部都是jvm,但是呢,java本身,是一个比较专业的东西
一般非科班出身,或者即便是科班出身,阴差阳错,错过这个领域的也很多
很多搞mobile去了,更不要说搞统计等外行了
所以一般程序员用java或者scala这些,总之最后上一个jvm没有问题
但是,但是,但是,搞data scientists的人,压根不会java
多数只懂r这些,而r本身的引擎,跟jvm是两个世界,当然可以通过接口连起来
但是这样效率其实还是不行,分层的效率偏低
所以统计和程序员之间,有一个很大的gap,最理想的就是让data scientists去搞r
程序员去写java/scala这些,不需要做任何改动,就能无缝集成起来
这是最理想的,那现在renjin就在做这个事情
工业界需求很大,尤其是统计应用比较广泛的领域,比如保险公司,药厂
硬件加速在backend不是问题,随便一台server,经常是计算资源用不完
十年前就这样了,现在it很少有拼命算那点资源过日子的,现... 阅读全帖
z*******3
发帖数: 13709
24
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
就是统计的去用r,it的用java那些
现在要用r效率低是一回事,r引擎还是单线程的,fp可以通过多线程优化的
主要还是接口很烦,所以给了sas以生存的空间
但是renjin出来以后,这个局面会改观
r有广泛的群众基础,这个很重要
z*******3
发帖数: 13709
25
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
不要过于苛求工具
工具本身进步需要时间
有多少就用多少
这个没有办法
因为工具不完美就不用
那这就是因噎废食
renjin现在还比较弱
但是现在弱并不代表以后也弱啊
慢慢会好的
主要是这个东西便宜,开源,不收你钱
这个很重要啊,呵呵
matlab和sas都是收费的
c****t
发帖数: 19049
26
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
当然不用matlab和sas啦
工具弱当然也得用。小孩们又不懂最新的东东。不过现成的东东没法成明天的主流啊
renjin是肯定不用的。弄这玩意还要雇个码工admin/maintain。多买几个GPU账面上还
可以depreciation便宜多了
littlebirds老师觉得奇怪我倒不觉得。java近几年快了不少,不少没啥大用的
numerical测试都显试java/C++也就是个2.0,当然还比不上C。如果java这边用了blas,
lapack或intel那个专门做弊的mxl而另一边C/C++没用,那java这边快也不奇怪。不过
对于现在的modeling,这都没用。
z*******3
发帖数: 13709
27
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
没有让统计的人去用java
他们还是用r
剩下的交给renjin和it去搞定
模型跟java无关,但是跟r关系很大

blas,
c****t
发帖数: 19049
28
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
晓得啊。是说您这个renjin的加速没啥用。。。
c****t
发帖数: 19049
29
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
速度很重要的说。。。renjin速度很不够的说。。。
n******7
发帖数: 12463
30
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
还是不明白renjin有啥用处
我感觉这玩意最后就跟jython差不多
能让r-base跑jvm上,但是很多package不能用
比如用jython不能用numpy,这就鸡肋了
n******7
发帖数: 12463
31
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
这也是我不明白的
R计算量大的部分好多都是C/fortran写的
换成renjin真的会快?
z*******3
发帖数: 13709
32
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
现在搞这个还太早,还是搞其他的库合适
这个还远没到成熟的地步
renjin最重要的不是多少人玩
而是能impl多少r的pkg
也就是离不需要修改r脚本就能跑还有多远
现在还不适合下放生产
z*******3
发帖数: 13709
33
来自主题: Programming版 - matlab 和 R 的最大(根本)区别?
学java的话,脚本引擎是相对高级的技巧
跟jruby这些类似,学习java还是先把重心放在java本身上
就是jruby这些也远比renjin成熟
jruby东京大学做了快10年了,成熟太多了
z****e
发帖数: 54598
34
来自主题: Programming版 - 我觉得java的确还是很牛的
大多数时候我就喜欢一堆破烂机拼凑
我是真的不挑机器
其实google用得那些破烂机器跟ibm卖的比起来
那叫一个烂阿
没办法,现在都这样,用一堆破烂机凑一起
然后替换掉强大的机器
现在除非你搞生物,或者是物理这种
一般都不用这么强大的机器,主要问题是很贵
科学计算领域,java的确不行
但是搞research和赚钱,那是两回事
搞生物的数据,都用不到java,主要是数据量过大
下一个领域是统计
统计现在用java至少用jvm的地方开始逐步增加了
上次我说的renjin就是一个例子
z****e
发帖数: 54598
35
来自主题: Programming版 - Scala这次又被比下去了
过于强调运行效率未必正确
我目前观察,只有renjin这种统计上数据过大情况,需要用到scala来写
牺牲掉编译时候的速度,强化运行时的效率,酱紫
z****e
发帖数: 54598
36
自己的机器还需要找dc来放
现在都cloud了,去哪里自己的机器
真正值钱的东西不是语言,这倒是没有错
问题在于,你用c++写起来,要折腾硬件
除非你说你的领域是硬件,否则用c++连个工作都够呛
真正聪明人应该抓紧时间给其他领域的人实现便利的工具
比如renjin那种
z****e
发帖数: 54598
37
你看到的不足,其实都有人在做
而这些人就通过这个来赚钱
比如renjin
都有公司在背后推动
你也就会说这些没用的了
悲愤,继续悲愤,看你什么时候上法庭
男人,光说不练,那就是一个太监
下面没有了
z****e
发帖数: 54598
38
物理和生物哪个数据量大,这个不太好说
不过我觉得是生物大,我们有南半球最强大的计算机
主要应用在生物工程和医疗领域
不过科学计算光靠软件也没啥镐头
hpc赶紧跟上,但是出来混工作,hpc经验一点用都没有
pbsscript的经验我一个字都不提
怕一不小心被弄去做主机,写cobol
当年这些也都不是没有机会做,不想做而已,兴趣不在这里
这些东西来钱也不快,比起软件,一个app都能创业,差太远了
统计是应用数学,也是目前除了cs之外,应用最为广泛的数学学科
所以对于统计的应用,非常迫切,sas的license太贵了
r又是单线程的,很难搞,所以renjin很好地弥补了这一个缺口
我看好这个东东,一些常用的数学,apache common math就可以了
就你说的一些常见的统计模型,比如蒙特卡洛之类的
common math就有,不需要自己实现
真正的数学,这些工具,其实都不重要
数学里面,证明最重要,其他都是扯淡
医疗CT之类的,这个主要是卖器材,懂怎么做扫描ct更重要
软件只是一个辅助在这些领域里面,不上台面,也不需要专业搞软件的去做
本行搞这个的自己就把软件给写了,也没多少东西,目的... 阅读全帖
z****e
发帖数: 54598
39
自己的机器还需要找dc来放
现在都cloud了,去哪里自己的机器
真正值钱的东西不是语言,这倒是没有错
问题在于,你用c++写起来,要折腾硬件
除非你说你的领域是硬件,否则用c++连个工作都够呛
真正聪明人应该抓紧时间给其他领域的人实现便利的工具
比如renjin那种
z****e
发帖数: 54598
40
你看到的不足,其实都有人在做
而这些人就通过这个来赚钱
比如renjin
都有公司在背后推动
你也就会说这些没用的了
悲愤,继续悲愤,看你什么时候上法庭
男人,光说不练,那就是一个太监
下面没有了
z****e
发帖数: 54598
41
物理和生物哪个数据量大,这个不太好说
不过我觉得是生物大,我们有南半球最强大的计算机
主要应用在生物工程和医疗领域
不过科学计算光靠软件也没啥镐头
hpc赶紧跟上,但是出来混工作,hpc经验一点用都没有
pbsscript的经验我一个字都不提
怕一不小心被弄去做主机,写cobol
当年这些也都不是没有机会做,不想做而已,兴趣不在这里
这些东西来钱也不快,比起软件,一个app都能创业,差太远了
统计是应用数学,也是目前除了cs之外,应用最为广泛的数学学科
所以对于统计的应用,非常迫切,sas的license太贵了
r又是单线程的,很难搞,所以renjin很好地弥补了这一个缺口
我看好这个东东,一些常用的数学,apache common math就可以了
就你说的一些常见的统计模型,比如蒙特卡洛之类的
common math就有,不需要自己实现
真正的数学,这些工具,其实都不重要
数学里面,证明最重要,其他都是扯淡
医疗CT之类的,这个主要是卖器材,懂怎么做扫描ct更重要
软件只是一个辅助在这些领域里面,不上台面,也不需要专业搞软件的去做
本行搞这个的自己就把软件给写了,也没多少东西,目的... 阅读全帖
z****e
发帖数: 54598
42
来自主题: Programming版 - 大牛们能不能把语言整合一下?
楼主说的很有道理
位运算符的确没有必要
完全可以抽象出来
r等其他语言就是*^当成乘和乘方用
现在忙的都是简化这些语言
更贴近其他人的需要,所以才会有renjin这些
z****e
发帖数: 54598
43
来自主题: Programming版 - c++就像一个贼船
那也不是用c++这种搞法阿
你看人家renjin,这个多强
z****e
发帖数: 54598
44
来自主题: Programming版 - c++这种语言注定了会越做越小
graphics和math都快守不住了
unity做出了很好的表率
math的话,就看script engine了
你说的这些,聪明人其实看到了机会
聪明人会想办法去搞定这些东西
然后交给我们懒人去用
所以光喊说需要需要,是没有用的
现在需要,从长远看,只会越来越少
这个真的是顺之者昌,逆之者亡
聪明人就顺着推一把,然后给自己赚取足够的credits
比如renjin那些,这就是典型的math,统计就是典型的应用数学
他们已经在做了,你还等什么?
这不是我的领域,我更多的只是看个热闹,但是如果你从事的是这些领域
哼哼,那自求多福吧,实际上现在c++找工作跟十年前已经不是一回事了

low
open
high-
z****e
发帖数: 54598
45
哈哈,楼主这种档次的看到了缺口就是看不到机会
牛人看到了机会,把一些缺口给补上,就开始赚钱了
比如renjin,线性代数当然有库,比如apache common math
现在big data都是互联网公司在搞,其他传统行业统计压根没啥应用
很多干脆都是拿excel算的,而不是自动化处理
图形处理压根不是很来钱的领域,最重要的是游戏
这一块c++也在华丽滴退化,unity就让别人用c#和js
很多东西不足的同时也是机会,谁能把握机会,谁就能赚钱
z****e
发帖数: 54598
46
来自主题: Programming版 - scala很牛啊
可以让学术界的人好好搞搞scala
貌似现在也是这个趋势
学术界的各种工具,ml比如spark,r比如renjin
都是用scala来写
实战时候还是直接用java调用就是了
scala有成为jvm上的fortran的趋势
z****e
发帖数: 54598
47
来自主题: Programming版 - scala应该努力成为学术圈内的工具
只是在工作中调用一些类库的话
不需要弄scala,直接java/python就行了
代码简单容易读懂,便于维护
spark的python还可以用numpy
但是如果你是phd,给prof打工
或者本身就是搞ml, stats这些的叫兽
那你倒是应该好好看看scala
ml的spark,r的renjin都是用scala来写
而且现在做得颇为有声有色
以前jvm一直游离于学术界之外
导致很多学术圈内的工具,输出到工业界有距离
需要apache等组织来做project,麻烦,也慢
python倒是可以直接调,但是各种狗血事情也不少
现在叫兽们可以直接使唤下面的phd用scala干活
然后直接输出成类库,工业界就可以用了
拉近工业界和学术圈之间的距离
用scala蛮好,要用这个首先要先理论过硬
scala纯粹变成一个工具才行,否则看scala代码去学习ml那些理论
迟早疯掉
scala将会是jvm上的fortran
z****e
发帖数: 54598
48
wdong跟你说个open nlp你就知道open nlp了?
主流是stanford nlp
http://nlp.stanford.edu/
搞nlp当然要看死蛋佛在干哈了
google就是从死蛋佛发家的
python和r的包几乎都是c/c++/fortran这些语言写的
jvm上的r刚刚起步,毕竟r是比较专业的软件
要全部做一遍下来,还需要时间
jvm对于pkg有比较高的要求,至少要跨平台所以要搞成字节码这些
这些都是门槛,而搞成r或者python的pkg则没有这么高的门槛
尤其是python,很容易就包装过去了,所以一般会先于jvm上的pkg推出来
但是这些pkg普遍质量不行,对平台有各种狗屎要求
安装起来要这样要那样,不胜其烦,工业界本来os就很多样
所以这些包用起来都很痛苦,磨合有阵痛
现在是一步一步去往jvm上搬
主要工具就是scala去一点一点写,所以才有spark,renjin这些
z****e
发帖数: 54598
49
来自主题: Programming版 - 试了下spark,不过如此啊
具体的实现没功夫看
但是我看renjin也说用scala优化了操作过程
俺就assume他们说的是对的了,真没啥兴趣去阅读源代码
尤其还是scala代码
z****e
发帖数: 54598
50
来自主题: Programming版 - 大家有没有觉得Scala不如Haskell美?
不过为啥我觉得xml能写在语言里面是优势呢?
web脚本,比如ruby和js,都把json扔里面
这要是不丑陋,那scala把xml写里面算丑陋么?
还不是一样的,我觉得scala将来会成为各个领域造轮子的利器
就我所见,统计,ml等学科越来越多地使用scala来造轮子
比如renjin和spark,而且这个势头大有燎原之势
pure fp没戏,要能搞成早就搞成了,不用等到现在
1 (共1页)