s****y 发帖数: 503 | 1 很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java?
我不懂Python,Python比Java好在哪里? |
z****e 发帖数: 54598 | 2 lol,说明python高大上,应该好好学习python
祝你以后找到“数据挖掘”的工作 |
w***g 发帖数: 5958 | 3 java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。
倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在
C++ 11了好很多,以前经常需要写诸如map, string>::const_
iterator这
种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是
超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢,
别的都好多了。我都是等编译的时候过来发帖子的。
如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了
.h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢
还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
好处也很明显,如果写得好的话程序运行起来比编译还快。别人一个model要算一天,
我一个小时不到就算出来了。这两天搞一个机器学习比赛,我知道一个用C++核心加
perl的,算一个model要5个小时。我纯C++的1个小时就出来结果了,我可以比他多试
好几种参数,效果很明显。
【在 s****y 的大作中提到】 : 很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java? : 我不懂Python,Python比Java好在哪里?
|
l*******m 发帖数: 1096 | 4 clang 是不是快些
【在 w***g 的大作中提到】 : java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。 : 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在 : C++ 11了好很多,以前经常需要写诸如map, string>::const_ : iterator这 : 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是 : 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢, : 别的都好多了。我都是等编译的时候过来发帖子的。 : 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了 : .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢 : 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
|
w***g 发帖数: 5958 | 5 clang比较新,各种东西都没有gcc成熟。性能也不是什么情况下都快,比如openmp就没
有gcc好。
http://www.phoronix.com/scan.php?page=article&item=llvm_clang_o
【在 l*******m 的大作中提到】 : clang 是不是快些
|
z****e 发帖数: 54598 | 6 楼主挖个坑你还当真了
我问你
有几个python/r的pkg是python/r写的?
你还这么认真地写了一大段
幼稚了不是?
【在 w***g 的大作中提到】 : java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。 : 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在 : C++ 11了好很多,以前经常需要写诸如map, string>::const_ : iterator这 : 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是 : 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢, : 别的都好多了。我都是等编译的时候过来发帖子的。 : 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了 : .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢 : 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
|
s****y 发帖数: 503 | 7
多谢wdong
【在 w***g 的大作中提到】 : java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。 : 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在 : C++ 11了好很多,以前经常需要写诸如map, string>::const_ : iterator这 : 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是 : 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢, : 别的都好多了。我都是等编译的时候过来发帖子的。 : 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了 : .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢 : 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
|
s****y 发帖数: 503 | 8
我没有挖坑啊
因为我发现只有少数开发包是用java写的,比如OpenNLP
【在 z****e 的大作中提到】 : 楼主挖个坑你还当真了 : 我问你 : 有几个python/r的pkg是python/r写的? : 你还这么认真地写了一大段 : 幼稚了不是?
|
z****e 发帖数: 54598 | 9 wdong跟你说个open nlp你就知道open nlp了?
主流是stanford nlp
http://nlp.stanford.edu/
搞nlp当然要看死蛋佛在干哈了
google就是从死蛋佛发家的
python和r的包几乎都是c/c++/fortran这些语言写的
jvm上的r刚刚起步,毕竟r是比较专业的软件
要全部做一遍下来,还需要时间
jvm对于pkg有比较高的要求,至少要跨平台所以要搞成字节码这些
这些都是门槛,而搞成r或者python的pkg则没有这么高的门槛
尤其是python,很容易就包装过去了,所以一般会先于jvm上的pkg推出来
但是这些pkg普遍质量不行,对平台有各种狗屎要求
安装起来要这样要那样,不胜其烦,工业界本来os就很多样
所以这些包用起来都很痛苦,磨合有阵痛
现在是一步一步去往jvm上搬
主要工具就是scala去一点一点写,所以才有spark,renjin这些
【在 s****y 的大作中提到】 : : 我没有挖坑啊 : 因为我发现只有少数开发包是用java写的,比如OpenNLP
|
w***g 发帖数: 5958 | 10 我回帖里说了斯坦福了,这个不是我的责任。
【在 z****e 的大作中提到】 : wdong跟你说个open nlp你就知道open nlp了? : 主流是stanford nlp : http://nlp.stanford.edu/ : 搞nlp当然要看死蛋佛在干哈了 : google就是从死蛋佛发家的 : python和r的包几乎都是c/c++/fortran这些语言写的 : jvm上的r刚刚起步,毕竟r是比较专业的软件 : 要全部做一遍下来,还需要时间 : jvm对于pkg有比较高的要求,至少要跨平台所以要搞成字节码这些 : 这些都是门槛,而搞成r或者python的pkg则没有这么高的门槛
|
|
|
N******K 发帖数: 10202 | 11 c++11非常好 用ssd + 快的cpu
写头文件有个好处 就是当文档使用
python这个垃圾 看着就恶心
【在 w***g 的大作中提到】 : java我不清楚。我自己用C++做机器学习的,缺点很明显,就是编译一次要等半天。 : 倒不用跟java那样catch exception,但写程序显然还是没有python方便。现在 : C++ 11了好很多,以前经常需要写诸如map, string>::const_ : iterator这 : 种P用没有的代码,绝对令人抓狂。做机器学习几分钟要换个model,C++如果不是 : 超级熟练的话显然适应不了需求。现在上了C++11后我觉得除了编译还是一样慢, : 别的都好多了。我都是等编译的时候过来发帖子的。 : 如果想编译快也可以,所有的东西.h文件写一遍, .cpp文件再写一遍,拿天要改了 : .h文件改一遍,.cpp文件再改一边,很容易就精神分裂了。全都写.h里除了编译慢 : 还有一个坏处,就是stack dump的时候全都缩到一个函数里面去了,啥信息都找不到。
|
d******e 发帖数: 2265 | 12 可视化。
楼下得都是马工,没有太多dm或者ml得经验。
你开始不知道什么。必须处理原始数据和作图找关系。
你用C++?我都分析好几论特征了。
【在 s****y 的大作中提到】 : 很多数据挖掘的开发包都是用Python或R写的,为什么不是C++或者Java? : 我不懂Python,Python比Java好在哪里?
|
g*********e 发帖数: 14401 | 13 python只是driver script 调用c的包 |
N******K 发帖数: 10202 | 14 2维的数据?
【在 d******e 的大作中提到】 : 可视化。 : 楼下得都是马工,没有太多dm或者ml得经验。 : 你开始不知道什么。必须处理原始数据和作图找关系。 : 你用C++?我都分析好几论特征了。
|
d******e 发帖数: 2265 | 15 多维的可以一对一对找关系
任何dm 的第一步都是先 explore数据
【在 N******K 的大作中提到】 : 2维的数据?
|
r*g 发帖数: 3159 | 16 赞。做研究脚本语言很好。
【在 d******e 的大作中提到】 : 可视化。 : 楼下得都是马工,没有太多dm或者ml得经验。 : 你开始不知道什么。必须处理原始数据和作图找关系。 : 你用C++?我都分析好几论特征了。
|
N******K 发帖数: 10202 | 17 用2维研究高维?
【在 d******e 的大作中提到】 : 多维的可以一对一对找关系 : 任何dm 的第一步都是先 explore数据
|
d******e 发帖数: 2265 | |
N******K 发帖数: 10202 | |
d*****n 发帖数: 754 | 20 因为人眼只能看到2维。
【在 N******K 的大作中提到】 : 用2维研究高维?
|