第3页 - 关于mahout的讨论汇总 - 话题女王

c***z
发帖数: 6348

Thanks paper MM
Moving some more exp here
抛砖引玉，简单的说一下经验吧。我数学转统计的，所以不见得正确。欢迎大牛们多多
指点。
我觉得统计类找工作最好找金融系统，这样进可攻时间序列去花街，或者机器学习去当
DS，或者转咨询；退呢金融里面的统计pay的不错，也稳定。药厂，保险公司，
healthcare的似乎没这么多exit options。
如果想做DS，可以考虑这样爬科技树：logit regression -> neural network;
decision tree -> random forest; naive Bayes -> HMM -> HLDA (latent Dirichlet
allocation, 目前最hot的topic mining model); 再加survival analysis。编程语言
选R和python。然后在自己工作的project里面把这些实现以下，知道实际中会遇到的问
题。
下一步比较偏编程，事实上我也在学：unix + java + hadoop + mahout for ML +
hive o... 阅读全帖

S******y
发帖数: 1123

来自主题: Statistics版 - 分享：从SAS 到 Python 与 R

最近看到不少帖子，讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活，在平常工作中不
断提高SAS水平，也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区，从此开始了"二
次创业"的奋斗史 (教训啊来湾区的决定要慎重:-)
落脚未稳，首先就发现SAS在湾区不是主流技术(银行，药厂除外)，大部分主流科技公
司对SAS可以说是有点排斥的 (越新的公司越如此)。也情有可缘，这里的公司更cost
effective, 即使买得起统计软件，也不愿在技术工具上受制于人。我曾有一次向老板
大力推荐SAS,要求公司买SAS licenses,他们也照做了，现在想起来可能人家多花
了几万块买SAS licenses也有点不太情愿吧。（唉，自己当时太年轻了 :-)
改变不了世界就改变自己吧:-)
于是我就想办法逐渐换自己的skill set。这个转化过程需要点时间，我也得... 阅读全帖

n*****3
发帖数: 1584

来自主题: Statistics版 - 分享：从SAS 到 Python 与 R

好
mahout 不是 Java only吗？已经有python wrap 了？

S******y
发帖数: 1123

来自主题: Statistics版 - 分享：从SAS 到 Python 与 R

------------------------------------------------------------------------
欢迎上我的两小时Python/R/SAS实战速成课程
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about
------------------------------------------------------------------------
最近看到不少帖子，讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活，在平常工作中不
断提高SAS水平，也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区，从此开始了"二
次创业"的奋斗史 (教训啊来湾区的决定要慎重:-)
落脚未稳，首先就发现SAS在湾区不... 阅读全帖

n*****3
发帖数: 1584

来自主题: Statistics版 - 分享：从SAS 到 Python 与 R

好
mahout 不是 Java only吗？已经有python wrap 了？

S******y
发帖数: 1123

来自主题: Statistics版 - 请教统计选课, 兼问bayesian的工作机会多吗？

Thanks for sharing on HLDA.
I am going to try some LDA analysis on Mahout this month :-)
m*********[email protected]
http://plus.google.com/109275868505226513618/about

p****2
发帖数: 518

来自主题: Statistics版 - R语言能否对大数据库运行中去重复？

测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软mssql
的deduplication，在record数目到million级的时候，效率明显不够要求，
求个好工具，或者自己做的话，可以借用什么framework？
Lucene + Mahout? R语言?
多谢啦！

p****2
发帖数: 518

来自主题: Statistics版 - R语言能否对大数据库运行中去重复？

l******n
发帖数: 9344

来自主题: Statistics版 - SAS的前景可怕吗？

SAS只是提供了调用接口
~~~~~~~~~~~~~~~~~~~~~
我怎么觉得换成R,Python,Mahout都不会有什么问题

reduce

S******y
发帖数: 1123

来自主题: Statistics版 - 是不是好多人都不喜欢编程？

Thanks for sharing the fun stuff you are working on!
Let me give a try by brainstorming :-)
At first, have a productID column so it allows one productID to have
multiple prod names across sites
1.-3. Pig summarizes data in Hadoop
4. Pig summarizes data in Hadoop ==> R/Python building models (quick and
dirty aggregate-level)
5. Mahout (item-based collaborative filtering)
Just my 2 cents :-)
statsGuy
m*********[email protected]
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about

f*****n
发帖数: 378

来自主题: Statistics版 - 转发一个RECRUITER给的工作机会

最重要的：说是希望下周就能开始上班，我干不了。工资据说是60一小时
联系信息：Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode(c);}s=document.createTextNode(s);l.parentNode.replaceChild(s,l);}}catch(e){}})();
/* ]]> */
RCG Global Services
-------------------------... 阅读全帖

S******y
发帖数: 1123

来自主题: Statistics版 - 如何用python读取大数据 (转载)

我觉的有两个思路
1. 可以先用Python processing by line(s)
挑你需要的或summarized/rolled-up的数据写出来
再用pandas 或R做model
2. 如果真需要learn from entire data set 干脆直接
上mahout 或者 spark

b*****o
发帖数: 715

来自主题: DataSciences版 - [挖个坑]数据分析都有哪些开源工具呀？

我想可以分两类，一类是heavy-weight需要有infrastructure支持的，一类是light-
weight自己laptop上就能跑的。
heavy-weight: hadoop，mahout, hbase, hive, storm, impala, mesos, ...
light-weight: R, weka, d3, webGL, nltk, ...
我其实只对light-weight感兴趣，希望有大牛能发言。

j*******t
发帖数: 223

来自主题: DataSciences版 - [挖个坑]数据分析都有哪些开源工具呀？

mahout的也有的算法是不需要hadoop的。

p****o
发帖数: 1340

来自主题: DataSciences版 - Big data是下一个大坑吗

哈哈，看大家的帖子，省了好多时间去寻找。
logistic regression的算法本身是顺序的，没有什么framework可以一般地
并行处理这种迭代算法的。在mahout中，logistic是用stochastic gradient
descent计算的，每步之间也不是并行的。可以利用的一点是让每一个节点
把中间计算值提前送到reducer，这样计算的时候不用等待需要的数据。

Dryad/

c****t
发帖数: 19049

来自主题: DataSciences版 - 征集版标

我是偏算法的，不过目前发言的好像搞硬件的居多？用hadoop那小象合适吗？hive那小
怪物会不会更生动？mahout好像是阿三话。。。
请各位推荐

r*******y
发帖数: 626

来自主题: DataSciences版 - 为啥data science这么强调map reduce这些呢？

Not necessarily. If you model needs to process large amount of model and can
be coded in map-reduce framework. The whole model implementation could be
done in map-reduce, which is supposed to give you a lot of mileage on data
processing power and speed.
You can check out Mahout, which implements many classical ML models in map-
reduce.

s*********o
发帖数: 567

来自主题: DataSciences版 - 初入data science的困惑

理论物理出身，一直呆在学校，临近毕业开始投简历试水，很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强，
想做数据分析。现在入职一段时间了，一点数据分析的工作也没沾到，倒是Hadoop,
Hive, Pig， MapR, Mahout一股脑的砸过来，我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上，而IT又是我的软肋，每天忙忙碌碌，仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况，有点小沮丧啊。

j*******g
发帖数: 331

来自主题: DataSciences版 - 初入data science的困惑

Hadoop, Hive, Pig， MapR, Mahout是网
lz是水手
你是老板还是网工呢？

c******n
发帖数: 4965

来自主题: DataSciences版 - pig能做iterative的问题吗?

that's why people invented spark , mahout is now being migrated to spark
exactly for this reason: a lot of ml algorithms are Interactive by nature

成2

n*****3
发帖数: 1584

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?

n*****3
发帖数: 1584

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?

f*****n
发帖数: 378

来自主题: DataSciences版 - 转发一个RECRUITER给的工作机会

【以下文字转载自 Statistics 讨论区】
发信人: flysoon (flysoon), 信区: Statistics
标题: 转发一个RECRUITER给的工作机会
发信站: BBS 未名空间站 (Mon Nov 10 17:55:15 2014, 美东)
最重要的：说是希望下周就能开始上班，我干不了。工资据说是60一小时
联系信息：Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode... 阅读全帖

m**o
发帖数: 5261

来自主题: DataSciences版 - BIG DATA TOPICS

我在课上要求学生选择一种BIG DATA 技术所演讲。
我现在让学生学一个TOPIC。
我自己想到的TOPICS 有，
Apache Hive
Apache Hbase
Apache Pig and Pig Latin
Apache Cassandra
MongoDB
Apache Mahout
Apache Drill/ Google Dremel
Apache Stark and Storm
我在课上讲了MAP-REDUCE。还有什么现在比较流行的大数据技术？我对这方面不怎么
熟悉，请帮助。

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-09
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-09/short.html
1) 【从SDN以及Docker看网络模型发生的变革】 by @DockerOne
关键词：虚拟化, Docker, 容器
【从SDN以及Docker看网络模型发生的变革】本文选自New Stack，是介绍SDN的系列文
章之一，这系列之前的几篇文章主要是介绍SDN相关的技术和工具，这篇文章以Docker
容器集群的网络模型为出发点，大致介绍了SocketPlane如何将SDN与Docker结合起来，
在跨主机的容器之间建立虚拟局域网。 [1]
[1] http://dockerone.com/article/188
2) 【基于Hadoop和Hbase的人类基因组/外显子组数据分析工具SeqHBase】 by @
biostack
关键词：分析, 计算框... 阅读全帖

t*********u
发帖数: 26311

来自主题: DataSciences版 - 公司有一些hadoop的session，大家看看那些值得去听

从data scientist和analyst的角度
• Technical Upgrade Planning and Implementation
• Leveraging Hadoop 2.2 for Query Performance Improvements
• Solr Business Use Cases and Integration with Hadoop
• Machine Learning in Manufacturing (use cases, workshop, etc.)
• Discuss Kafka, Storm, Mahout, Spark in Supporting Sentiment
Analysis
• Discuss Hortonworks Data Science Capability and Service
Offerings
• Amazon Product Alerting
• B... 阅读全帖

x*********3
发帖数: 63

来自主题: DataSciences版 - 【内部推荐工作】

Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天