由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 为什么很多数据挖掘的开发包都是用Python或R写的?
相关主题
感觉python的前途堪忧 (转载)数据的游戏:冰与火 (zz)
[合集] scipy还是matlab现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
快被python搞死了[合集] 到底要学习Perl,还是Python?
wdong, 要不要换Julia?[合集] 给没用过 python 或着这正在用的人
我总结的转行路线Hadoop 和Python的数据分析包哪个更值得学习?
Re: 打脸文章:关于deep learning (转载)菜鸟问个python+http问题
wdong的网站在我公司的黑名单上,LoLPython 可不可以一次读数据给一个 web service 后,然后一直用这个数据
去哪里找ICO的消息?wdong, 请教几个Julia的问题
相关话题的讨论汇总
话题: python话题: c++话题: 数据挖掘话题: java话题: 包都
进入Programming版参与讨论
1 (共1页)
s****y
发帖数: 503
1
很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java?
我不懂Python,Python比Java好在哪里?
z****e
发帖数: 54598
2
lol,说明python高大上,应该好好学习python
祝你以后找到“数据挖掘”的工作
w***g
发帖数: 5958
3
java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
C++ 11了好很多,以前经常需要写诸如map, string>::const_
iterator这
种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
别的都好多了。我都是等编译的时候过来发帖子的。
如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
.h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
好处也很明显,如果写得好的话程序运行起来比编译还快。别人一个model要算一天,
我一个小时不到就算出来了。这两天搞一个机器学习比赛,我知道一个用C++核心加
perl的,算一个model要5个小时。我纯C++的1个小时就出来结果了,我可以比他多试
好几种参数,效果很明显。

【在 s****y 的大作中提到】
: 很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java?
: 我不懂Python,Python比Java好在哪里?

l*******m
发帖数: 1096
4
clang 是不是快些

【在 w***g 的大作中提到】
: java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
: 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
: C++ 11了好很多,以前经常需要写诸如map, string>::const_
: iterator这
: 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
: 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
: 别的都好多了。我都是等编译的时候过来发帖子的。
: 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
: .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
: 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。

w***g
发帖数: 5958
5
clang比较新,各种东西都没有gcc成熟。性能也不是什么情况下都快,比如openmp就没
有gcc好。
http://www.phoronix.com/scan.php?page=article&item=llvm_clang_o

【在 l*******m 的大作中提到】
: clang 是不是快些
z****e
发帖数: 54598
6
楼主挖个坑你还当真了
我问你
有几个python/r的pkg是python/r写的?
你还这么认真地写了一大段
幼稚了不是?

【在 w***g 的大作中提到】
: java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
: 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
: C++ 11了好很多,以前经常需要写诸如map, string>::const_
: iterator这
: 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
: 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
: 别的都好多了。我都是等编译的时候过来发帖子的。
: 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
: .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
: 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。

s****y
发帖数: 503
7

多谢wdong

【在 w***g 的大作中提到】
: java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
: 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
: C++ 11了好很多,以前经常需要写诸如map, string>::const_
: iterator这
: 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
: 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
: 别的都好多了。我都是等编译的时候过来发帖子的。
: 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
: .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
: 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。

s****y
发帖数: 503
8

我没有挖坑啊
因为我发现只有少数开发包是用java写的,比如OpenNLP

【在 z****e 的大作中提到】
: 楼主挖个坑你还当真了
: 我问你
: 有几个python/r的pkg是python/r写的?
: 你还这么认真地写了一大段
: 幼稚了不是?

z****e
发帖数: 54598
9
wdong跟你说个open nlp你就知道open nlp了?
主流是stanford nlp
http://nlp.stanford.edu/
搞nlp当然要看死蛋佛在干哈了
google就是从死蛋佛发家的
python和r的包几乎都是c/c++/fortran这些语言写的
jvm上的r刚刚起步,毕竟r是比较专业的软件
要全部做一遍下来,还需要时间
jvm对于pkg有比较高的要求,至少要跨平台所以要搞成字节码这些
这些都是门槛,而搞成r或者python的pkg则没有这么高的门槛
尤其是python,很容易就包装过去了,所以一般会先于jvm上的pkg推出来
但是这些pkg普遍质量不行,对平台有各种狗屎要求
安装起来要这样要那样,不胜其烦,工业界本来os就很多样
所以这些包用起来都很痛苦,磨合有阵痛
现在是一步一步去往jvm上搬
主要工具就是scala去一点一点写,所以才有spark,renjin这些

【在 s****y 的大作中提到】
:
: 我没有挖坑啊
: 因为我发现只有少数开发包是用java写的,比如OpenNLP

w***g
发帖数: 5958
10
我回帖里说了斯坦福了,这个不是我的责任。

【在 z****e 的大作中提到】
: wdong跟你说个open nlp你就知道open nlp了?
: 主流是stanford nlp
: http://nlp.stanford.edu/
: 搞nlp当然要看死蛋佛在干哈了
: google就是从死蛋佛发家的
: python和r的包几乎都是c/c++/fortran这些语言写的
: jvm上的r刚刚起步,毕竟r是比较专业的软件
: 要全部做一遍下来,还需要时间
: jvm对于pkg有比较高的要求,至少要跨平台所以要搞成字节码这些
: 这些都是门槛,而搞成r或者python的pkg则没有这么高的门槛

相关主题
Re: 打脸文章:关于deep learning (转载)数据的游戏:冰与火 (zz)
wdong的网站在我公司的黑名单上,LoL现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
去哪里找ICO的消息?[合集] 到底要学习Perl,还是Python?
进入Programming版参与讨论
N******K
发帖数: 10202
11
c++11非常好 用ssd + 快的cpu
写头文件有个好处 就是当文档使用
python这个垃圾 看着就恶心

【在 w***g 的大作中提到】
: java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
: 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
: C++ 11了好很多,以前经常需要写诸如map, string>::const_
: iterator这
: 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
: 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
: 别的都好多了。我都是等编译的时候过来发帖子的。
: 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
: .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
: 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。

d******e
发帖数: 2265
12
可视化。
楼下得都是马工,没有太多dm或者ml得经验。
你开始不知道什么。必须处理原始数据和作图找关系。
你用C++?我都分析好几论特征了。

【在 s****y 的大作中提到】
: 很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java?
: 我不懂Python,Python比Java好在哪里?

g*********e
发帖数: 14401
13
python只是driver script 调用c的包
N******K
发帖数: 10202
14
2维的数据?

【在 d******e 的大作中提到】
: 可视化。
: 楼下得都是马工,没有太多dm或者ml得经验。
: 你开始不知道什么。必须处理原始数据和作图找关系。
: 你用C++?我都分析好几论特征了。

d******e
发帖数: 2265
15
多维的可以一对一对找关系
任何dm 的第一步都是先 explore数据

【在 N******K 的大作中提到】
: 2维的数据?
r*g
发帖数: 3159
16
赞。做研究脚本语言很好。

【在 d******e 的大作中提到】
: 可视化。
: 楼下得都是马工,没有太多dm或者ml得经验。
: 你开始不知道什么。必须处理原始数据和作图找关系。
: 你用C++?我都分析好几论特征了。

N******K
发帖数: 10202
17
用2维研究高维?

【在 d******e 的大作中提到】
: 多维的可以一对一对找关系
: 任何dm 的第一步都是先 explore数据

d******e
发帖数: 2265
18
http://gettinggeneticsdone.blogspot.com/2011/07/scatterplot-mat

【在 N******K 的大作中提到】
: 用2维研究高维?
N******K
发帖数: 10202
19
两个互相比 就是用2维研究高维 包括用pca看前两个主成分

【在 d******e 的大作中提到】
: http://gettinggeneticsdone.blogspot.com/2011/07/scatterplot-mat
d*****n
发帖数: 754
20
因为人眼只能看到2维。

【在 N******K 的大作中提到】
: 用2维研究高维?
1 (共1页)
进入Programming版参与讨论
相关主题
wdong, 请教几个Julia的问题我总结的转行路线
python 3.5现在是正式版本了?Re: 打脸文章:关于deep learning (转载)
无比悲惨的一天wdong的网站在我公司的黑名单上,LoL
趁好虫不来了,夸一下python去哪里找ICO的消息?
感觉python的前途堪忧 (转载)数据的游戏:冰与火 (zz)
[合集] scipy还是matlab现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
快被python搞死了[合集] 到底要学习Perl,还是Python?
wdong, 要不要换Julia?[合集] 给没用过 python 或着这正在用的人
相关话题的讨论汇总
话题: python话题: c++话题: 数据挖掘话题: java话题: 包都