由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 求教! how to run python programs on a hadoop cluster
相关主题
图像处理用C++的话,怎么提高prototype效率?python sklearn nearest neighbor user defined metric
有没有人自己买几个服务器或者电脑组装个multiple clusters来跑hadoop?有人做fuzzy clustering的么? (转载)
学术界做mapreduce基本上是扯淡请教!关于clustering,可否实现这个?
python的general问题[合集] fuzzy clustering, soft clustering 区别?
请问Hadoop怎样入门 (转载)有没有 这样 的 clustering 算法 ?
cs这几个方向,哪个现在和未来的状况最好?how to find a cluster
有对hadoop比较熟的吗?请问这样的distance怎么计算?
请问怎么计算两种clustering之间的差异k-means怎样改进能使cluster大小大致一样
相关话题的讨论汇总
话题: cluster话题: hadoop话题: python话题: programs话题: run
进入CS版参与讨论
1 (共1页)
s****i
发帖数: 197
1
假设我用python写的code需要用到scipy numpy sklearn等这些package但是处理的数据
非常巨大 在一个single machine上run需要超过50h 请问一下大家有没有方法可以
parallelize work使得我的code可以在一个hadoop cluster上运行以减少运行时间??
谢谢~~~
================================
在datascience板上问到据说用pig/hive写最简单暴力有效 但是由于程序要调用
sklearn/scipy/numpy这些package的函数 这个...在下pig/hive学艺不精 不知该如何
才能在pig/hive中调用那些package 再或者就是用到hadoop streamhttp://hadoop.apache.org/docs/stable1/streaming.html 在下非cs科班出身对此不太了解 可以麻烦推荐一本关于mapreduce设计的书或者教程吗??或
者cluster stream my code的方法详细说一下吗??非常感谢~~~
1 (共1页)
进入CS版参与讨论
相关主题
k-means怎样改进能使cluster大小大致一样请问Hadoop怎样入门 (转载)
openMP or boost::thread (pthread) for multithreading ?cs这几个方向,哪个现在和未来的状况最好?
【申请新版】 数据科学(DataScience) (转载)有对hadoop比较熟的吗?
请教:Map reduce到底是什么啊 (转载)请问怎么计算两种clustering之间的差异
图像处理用C++的话,怎么提高prototype效率?python sklearn nearest neighbor user defined metric
有没有人自己买几个服务器或者电脑组装个multiple clusters来跑hadoop?有人做fuzzy clustering的么? (转载)
学术界做mapreduce基本上是扯淡请教!关于clustering,可否实现这个?
python的general问题[合集] fuzzy clustering, soft clustering 区别?
相关话题的讨论汇总
话题: cluster话题: hadoop话题: python话题: programs话题: run