由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Hadoop 和Python的数据分析包哪个更值得学习?
相关主题
关于 SPARK, 问二爷peking2 和其他大牛一问题已经全上内存了,还要40多秒啊
感觉flink出来之后,hadoop就显得不怎么再需要了mahout现在还有人用不?
搞不懂为什么大牛说Hbase不如C*?Yarn的设计根本就是错的
想写一个machine learning的平台怎样schedule spark application
python真是一个很恶心的语言。继续纠结spark
Python至少还能管3年spark load数据速度
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?转行做data warehouse的问个学习大数据的问题
Hadoop/HBase/HDFS三驾马车过时了吗?学scala和spark需要什么pre req?
相关话题的讨论汇总
话题: hadoop话题: python话题: 数据分析话题: mahout话题: 学习
进入Programming版参与讨论
1 (共1页)
S*******C
发帖数: 822
1
对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
w***g
发帖数: 5958
2
python。我就是搞hadoop/spark的,不骗你。

【在 S*******C 的大作中提到】
: 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
T*******x
发帖数: 8565
3
python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?

【在 w***g 的大作中提到】
: python。我就是搞hadoop/spark的,不骗你。
S*******C
发帖数: 822
4
上研究生课程时很多人都用python的数据分析包做project,他们没有用到hadoop啊
怎么回事

【在 T*******x 的大作中提到】
: python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?
T*******x
发帖数: 8565
5
我也不懂,等wdong大牛指导。

【在 S*******C 的大作中提到】
: 上研究生课程时很多人都用python的数据分析包做project,他们没有用到hadoop啊
: 怎么回事

w***g
发帖数: 5958
6
下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。
不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来,
用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少
10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用
法来说,python是走,Hadoop是跑。两个都不会自然先要学走。

【在 T*******x 的大作中提到】
: python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?
a****e
发帖数: 9589
7
据说 Hadoop 快过气了

【在 S*******C 的大作中提到】
: 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
w***g
发帖数: 5958
8
hadoop的mapreduce已经过气了。但是HDFS, Yarn以及上面的各种东西像hive, spark之
类的几年内不会过气。

【在 a****e 的大作中提到】
: 据说 Hadoop 快过气了
l*******b
发帖数: 2586
9
单机python内存有时候会爆, 怎么整?

【在 w***g 的大作中提到】
: 下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。
: 不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来,
: 用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少
: 10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用
: 法来说,python是走,Hadoop是跑。两个都不会自然先要学走。

w***g
发帖数: 5958
10
如果你的机器<32G内存的话就换机器。
台式机至少配32G内存,服务器至少配64G。现在服务器标配怎么着也到100G了吧。
别告诉我你用笔记本在跑。

【在 l*******b 的大作中提到】
: 单机python内存有时候会爆, 怎么整?
相关主题
Python至少还能管3年已经全上内存了,还要40多秒啊
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?mahout现在还有人用不?
Hadoop/HBase/HDFS三驾马车过时了吗?Yarn的设计根本就是错的
进入Programming版参与讨论
T*******x
发帖数: 8565
11
好,谢谢。
能不能再多说两句为什么Python是走Hadoop是跑。

【在 w***g 的大作中提到】
: 下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。
: 不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来,
: 用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少
: 10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用
: 法来说,python是走,Hadoop是跑。两个都不会自然先要学走。

l*******b
发帖数: 2586
12
嗯...看来内存只能省着点用了
单机硬盘IO的瓶颈有什么解决方案呀,CPU好多core都闲着,硬盘数据load不上来

【在 w***g 的大作中提到】
: 如果你的机器<32G内存的话就换机器。
: 台式机至少配32G内存,服务器至少配64G。现在服务器标配怎么着也到100G了吧。
: 别告诉我你用笔记本在跑。

T*****9
发帖数: 2484
13
都不难吧,为什么不都学
我们用emr-jobs

【在 S*******C 的大作中提到】
: 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
e*******7
发帖数: 2169
14
这个包,各种语言都差不多。关键你把后面的数学搞明白点。

★ 发自iPhone App: ChineseWeb 8.2.2

【在 S*******C 的大作中提到】
: 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
w***g
发帖数: 5958
15
挂多个硬盘同时读。台式机的话应该可以挂6个吧。
如果数据总量不大的话上SSD也有帮助。

【在 l*******b 的大作中提到】
: 嗯...看来内存只能省着点用了
: 单机硬盘IO的瓶颈有什么解决方案呀,CPU好多core都闲着,硬盘数据load不上来

w***g
发帖数: 5958
16
Hadoop不光是数学的问题。要玩转需要很强的系统背景。
不然出了问题不知道怎么debug。

【在 e*******7 的大作中提到】
: 这个包,各种语言都差不多。关键你把后面的数学搞明白点。
:
: ★ 发自iPhone App: ChineseWeb 8.2.2

d****i
发帖数: 4809
17
哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数
学也是非常的简单的superficial的。

【在 w***g 的大作中提到】
: Hadoop不光是数学的问题。要玩转需要很强的系统背景。
: 不然出了问题不知道怎么debug。

k**********g
发帖数: 989
18
就是前期处理和後期处理的分别。
k**********g
发帖数: 989
19

走是初阶,跑是进阶。他的意思是先把 scikit-learn学了,然後按需要再考虑是否学
hadoop machine learning algorithms。

【在 T*******x 的大作中提到】
: 好,谢谢。
: 能不能再多说两句为什么Python是走Hadoop是跑。

w***g
发帖数: 5958
20
Hadoop因为规模大,各种现成的算法就少,如果要用就得自己实现。而且实现起来难度
比单机更大,不但要数学知识,想要算得快还得有系统知识。
现在主流是Spark,上面有不少ML算法。Mahout已经out了。

【在 d****i 的大作中提到】
: 哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数
: 学也是非常的简单的superficial的。

相关主题
怎样schedule spark application转行做data warehouse的问个学习大数据的问题
继续纠结spark学scala和spark需要什么pre req?
spark load数据速度试了下spark,不过如此啊
进入Programming版参与讨论
T*******x
发帖数: 8565
21
python, Scala, R
这三个data science 语言包括工具,哪个最值得学?

【在 k**********g 的大作中提到】
: 就是前期处理和後期处理的分别。
w***g
发帖数: 5958
22
如果是统计的话就学R。如果是CS的话就学python。python底下那套玩熟了再上scala和
spark。

【在 T*******x 的大作中提到】
: python, Scala, R
: 这三个data science 语言包括工具,哪个最值得学?

B*****g
发帖数: 34098
23
用mahout就别整hadoop了,人家自己都放弃了

【在 d****i 的大作中提到】
: 哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数
: 学也是非常的简单的superficial的。

l*********s
发帖数: 5409
24
news source?

【在 B*****g 的大作中提到】
: 用mahout就别整hadoop了,人家自己都放弃了
B*****g
发帖数: 34098
25
亲,不会吧,mahout早就转spark了
http://mahout.apache.org/

【在 l*********s 的大作中提到】
: news source?
d****i
发帖数: 4809
26
scala的这样那样的DSL太扯淡,要么老老实实用Java,对于程序员来说通俗易懂易维护
,要么直接用数学语言LaTex实现那种数学家通晓的数学符号,对于搞数学的人来说亲
近易懂。否则既不像程序语言,也不像数学家熟悉的语言,啥也不像太怪异了。

【在 B*****g 的大作中提到】
: 亲,不会吧,mahout早就转spark了
: http://mahout.apache.org/

b*******r
发帖数: 361
27
强re

【在 w***g 的大作中提到】
: Hadoop因为规模大,各种现成的算法就少,如果要用就得自己实现。而且实现起来难度
: 比单机更大,不但要数学知识,想要算得快还得有系统知识。
: 现在主流是Spark,上面有不少ML算法。Mahout已经out了。

z****e
发帖数: 54598
28
主要是手底下鸟人不听话
非要用各种装逼语言
都用java写
看不懂才怪
这就是为啥java好
它work
别人看得懂
这就是为啥其他语言不好
丫不work
很多人看不懂

【在 w***g 的大作中提到】
: Hadoop不光是数学的问题。要玩转需要很强的系统背景。
: 不然出了问题不知道怎么debug。

z****e
发帖数: 54598
29
都不值得学
把idea学懂
剩下的语法到时候查就是了

【在 T*******x 的大作中提到】
: python, Scala, R
: 这三个data science 语言包括工具,哪个最值得学?

1 (共1页)
进入Programming版参与讨论
相关主题
学scala和spark需要什么pre req?python真是一个很恶心的语言。
试了下spark,不过如此啊Python至少还能管3年
Flink Sparks Next Wave of Distributed Data ProcessingHadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
MapReduce 的思想是怎么发明的?Hadoop/HBase/HDFS三驾马车过时了吗?
关于 SPARK, 问二爷peking2 和其他大牛一问题已经全上内存了,还要40多秒啊
感觉flink出来之后,hadoop就显得不怎么再需要了mahout现在还有人用不?
搞不懂为什么大牛说Hbase不如C*?Yarn的设计根本就是错的
想写一个machine learning的平台怎样schedule spark application
相关话题的讨论汇总
话题: hadoop话题: python话题: 数据分析话题: mahout话题: 学习