S*******C 发帖数: 822 | 1 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习? |
w***g 发帖数: 5958 | 2 python。我就是搞hadoop/spark的,不骗你。
【在 S*******C 的大作中提到】 : 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
|
T*******x 发帖数: 8565 | 3 python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?
【在 w***g 的大作中提到】 : python。我就是搞hadoop/spark的,不骗你。
|
S*******C 发帖数: 822 | 4 上研究生课程时很多人都用python的数据分析包做project,他们没有用到hadoop啊
怎么回事
【在 T*******x 的大作中提到】 : python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?
|
T*******x 发帖数: 8565 | 5 我也不懂,等wdong大牛指导。
【在 S*******C 的大作中提到】 : 上研究生课程时很多人都用python的数据分析包做project,他们没有用到hadoop啊 : 怎么回事
|
w***g 发帖数: 5958 | 6 下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。
不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来,
用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少
10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用
法来说,python是走,Hadoop是跑。两个都不会自然先要学走。
【在 T*******x 的大作中提到】 : python用于机器学习的数据分析包不是要在hadoop上运行的吗?单独学行吗?
|
a****e 发帖数: 9589 | 7 据说 Hadoop 快过气了
【在 S*******C 的大作中提到】 : 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
|
w***g 发帖数: 5958 | 8 hadoop的mapreduce已经过气了。但是HDFS, Yarn以及上面的各种东西像hive, spark之
类的几年内不会过气。
【在 a****e 的大作中提到】 : 据说 Hadoop 快过气了
|
l*******b 发帖数: 2586 | 9 单机python内存有时候会爆, 怎么整?
【在 w***g 的大作中提到】 : 下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。 : 不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来, : 用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少 : 10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用 : 法来说,python是走,Hadoop是跑。两个都不会自然先要学走。
|
w***g 发帖数: 5958 | 10 如果你的机器<32G内存的话就换机器。
台式机至少配32G内存,服务器至少配64G。现在服务器标配怎么着也到100G了吧。
别告诉我你用笔记本在跑。
【在 l*******b 的大作中提到】 : 单机python内存有时候会爆, 怎么整?
|
|
|
T*******x 发帖数: 8565 | 11 好,谢谢。
能不能再多说两句为什么Python是走Hadoop是跑。
【在 w***g 的大作中提到】 : 下一个anaconda就全都有了, 先scipy,然后再上scikit-learn。 : 不是说hadoop没用。Hadoop有两种用法。第一种是做数据清洗。海量的日志数据进来, : 用Hadoop做各种清洗变换,不涉及任何machine learning。一般清洗完了数据量会减少 : 10-100倍,一般就到了单机可以搞定的范围了。第二种是真的机器学习。对于第二种用 : 法来说,python是走,Hadoop是跑。两个都不会自然先要学走。
|
l*******b 发帖数: 2586 | 12 嗯...看来内存只能省着点用了
单机硬盘IO的瓶颈有什么解决方案呀,CPU好多core都闲着,硬盘数据load不上来
【在 w***g 的大作中提到】 : 如果你的机器<32G内存的话就换机器。 : 台式机至少配32G内存,服务器至少配64G。现在服务器标配怎么着也到100G了吧。 : 别告诉我你用笔记本在跑。
|
T*****9 发帖数: 2484 | 13 都不难吧,为什么不都学
我们用emr-jobs
【在 S*******C 的大作中提到】 : 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
|
e*******7 发帖数: 2169 | 14 这个包,各种语言都差不多。关键你把后面的数学搞明白点。
★ 发自iPhone App: ChineseWeb 8.2.2
【在 S*******C 的大作中提到】 : 对于马工工作而言,Hadoop 和Python用于机器学习的数据分析包哪个更值得学习?
|
w***g 发帖数: 5958 | 15 挂多个硬盘同时读。台式机的话应该可以挂6个吧。
如果数据总量不大的话上SSD也有帮助。
【在 l*******b 的大作中提到】 : 嗯...看来内存只能省着点用了 : 单机硬盘IO的瓶颈有什么解决方案呀,CPU好多core都闲着,硬盘数据load不上来
|
w***g 发帖数: 5958 | 16 Hadoop不光是数学的问题。要玩转需要很强的系统背景。
不然出了问题不知道怎么debug。
【在 e*******7 的大作中提到】 : 这个包,各种语言都差不多。关键你把后面的数学搞明白点。 : : ★ 发自iPhone App: ChineseWeb 8.2.2
|
d****i 发帖数: 4809 | 17 哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数
学也是非常的简单的superficial的。
【在 w***g 的大作中提到】 : Hadoop不光是数学的问题。要玩转需要很强的系统背景。 : 不然出了问题不知道怎么debug。
|
k**********g 发帖数: 989 | |
k**********g 发帖数: 989 | 19
走是初阶,跑是进阶。他的意思是先把 scikit-learn学了,然後按需要再考虑是否学
hadoop machine learning algorithms。
【在 T*******x 的大作中提到】 : 好,谢谢。 : 能不能再多说两句为什么Python是走Hadoop是跑。
|
w***g 发帖数: 5958 | 20 Hadoop因为规模大,各种现成的算法就少,如果要用就得自己实现。而且实现起来难度
比单机更大,不但要数学知识,想要算得快还得有系统知识。
现在主流是Spark,上面有不少ML算法。Mahout已经out了。
【在 d****i 的大作中提到】 : 哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数 : 学也是非常的简单的superficial的。
|
|
|
T*******x 发帖数: 8565 | 21 python, Scala, R
这三个data science 语言包括工具,哪个最值得学?
【在 k**********g 的大作中提到】 : 就是前期处理和後期处理的分别。
|
w***g 发帖数: 5958 | 22 如果是统计的话就学R。如果是CS的话就学python。python底下那套玩熟了再上scala和
spark。
【在 T*******x 的大作中提到】 : python, Scala, R : 这三个data science 语言包括工具,哪个最值得学?
|
B*****g 发帖数: 34098 | 23 用mahout就别整hadoop了,人家自己都放弃了
【在 d****i 的大作中提到】 : 哈肚婆没有什么数学问题吧,你说的是Mahout吧,就算是Mahout,那一点点牵涉到的数 : 学也是非常的简单的superficial的。
|
l*********s 发帖数: 5409 | 24 news source?
【在 B*****g 的大作中提到】 : 用mahout就别整hadoop了,人家自己都放弃了
|
B*****g 发帖数: 34098 | 25 亲,不会吧,mahout早就转spark了
http://mahout.apache.org/
【在 l*********s 的大作中提到】 : news source?
|
d****i 发帖数: 4809 | 26 scala的这样那样的DSL太扯淡,要么老老实实用Java,对于程序员来说通俗易懂易维护
,要么直接用数学语言LaTex实现那种数学家通晓的数学符号,对于搞数学的人来说亲
近易懂。否则既不像程序语言,也不像数学家熟悉的语言,啥也不像太怪异了。
【在 B*****g 的大作中提到】 : 亲,不会吧,mahout早就转spark了 : http://mahout.apache.org/
|
b*******r 发帖数: 361 | 27 强re
【在 w***g 的大作中提到】 : Hadoop因为规模大,各种现成的算法就少,如果要用就得自己实现。而且实现起来难度 : 比单机更大,不但要数学知识,想要算得快还得有系统知识。 : 现在主流是Spark,上面有不少ML算法。Mahout已经out了。
|
z****e 发帖数: 54598 | 28 主要是手底下鸟人不听话
非要用各种装逼语言
都用java写
看不懂才怪
这就是为啥java好
它work
别人看得懂
这就是为啥其他语言不好
丫不work
很多人看不懂
【在 w***g 的大作中提到】 : Hadoop不光是数学的问题。要玩转需要很强的系统背景。 : 不然出了问题不知道怎么debug。
|
z****e 发帖数: 54598 | 29 都不值得学
把idea学懂
剩下的语法到时候查就是了
【在 T*******x 的大作中提到】 : python, Scala, R : 这三个data science 语言包括工具,哪个最值得学?
|