由买买提看人间百态

topics

全部话题 - 话题: mahout
首页 上页 1 2 3 (共3页)
c***z
发帖数: 6348
1
来自主题: Statistics版 - 杂七杂八的一些面经
Thanks paper MM
Moving some more exp here
抛砖引玉,简单的说一下经验吧。我数学转统计的,所以不见得正确。欢迎大牛们多多
指点。
我觉得统计类找工作最好找金融系统,这样进可攻时间序列去花街,或者机器学习去当
DS,或者转咨询;退呢金融里面的统计pay的不错,也稳定。药厂,保险公司,
healthcare的似乎没这么多exit options。
如果想做DS,可以考虑这样爬科技树:logit regression -> neural network;
decision tree -> random forest; naive Bayes -> HMM -> HLDA (latent Dirichlet
allocation, 目前最hot的topic mining model); 再加survival analysis。编程语言
选R和python。然后在自己工作的project里面把这些实现以下,知道实际中会遇到的问
题。
下一步比较偏编程,事实上我也在学:unix + java + hadoop + mahout for ML +
hive o... 阅读全帖
S******y
发帖数: 1123
2
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R
最近看到不少帖子,讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活,在平常工作中不
断提高SAS水平,也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区,从此开始了"二
次创业"的奋斗史 (教训啊 来湾区的决定要慎重:-)
落脚未稳,首先就发现SAS在湾区不是主流技术(银行,药厂除外),大部分主流科技公
司对SAS可以说是有点排斥的 (越新的公司越如此)。也情有可缘,这里的公司更cost
effective, 即使买得起统计软件,也不愿在技术工具上受制于人。我曾有一次向老板
大力推荐SAS,要求公司买SAS licenses,他们也照做了,现在想起来可能人家多花
了几万块买SAS licenses也有点不太情愿吧。(唉,自己当时太年轻了 :-)
改变不了世界就改变自己吧:-)
于是我就想办法逐渐换自己的skill set。这个转化过程需要点时间,我也得... 阅读全帖
n*****3
发帖数: 1584
3
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R

mahout 不是 Java only吗?已经有python wrap 了?
S******y
发帖数: 1123
4
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R
------------------------------------------------------------------------
欢迎上我的两小时Python/R/SAS实战速成课程
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about
------------------------------------------------------------------------
最近看到不少帖子,讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活,在平常工作中不
断提高SAS水平,也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区,从此开始了"二
次创业"的奋斗史 (教训啊 来湾区的决定要慎重:-)
落脚未稳,首先就发现SAS在湾区不... 阅读全帖
n*****3
发帖数: 1584
5
来自主题: Statistics版 - 分享: 从SAS 到 Python 与 R

mahout 不是 Java only吗?已经有python wrap 了?
S******y
发帖数: 1123
6
Thanks for sharing on HLDA.
I am going to try some LDA analysis on Mahout this month :-)
m*********[email protected]
http://plus.google.com/109275868505226513618/about
p****2
发帖数: 518
7
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
p****2
发帖数: 518
8
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
l******n
发帖数: 9344
9
来自主题: Statistics版 - SAS的前景可怕吗?
SAS只是提供了调用接口
~~~~~~~~~~~~~~~~~~~~~
我怎么觉得换成R,Python,Mahout都不会有什么问题

reduce
S******y
发帖数: 1123
10
来自主题: Statistics版 - 是不是好多人都不喜欢编程?
Thanks for sharing the fun stuff you are working on!
Let me give a try by brainstorming :-)
At first, have a productID column so it allows one productID to have
multiple prod names across sites
1.-3. Pig summarizes data in Hadoop
4. Pig summarizes data in Hadoop ==> R/Python building models (quick and
dirty aggregate-level)
5. Mahout (item-based collaborative filtering)
Just my 2 cents :-)
statsGuy
m*********[email protected]
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
f*****n
发帖数: 378
11
来自主题: Statistics版 - 转发一个RECRUITER给的工作机会
最重要的:说是希望下周就能开始上班,我干不了。工资据说是60一小时
联系信息:Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode(c);}s=document.createTextNode(s);l.parentNode.replaceChild(s,l);}}catch(e){}})();
/* ]]> */
RCG Global Services
-------------------------... 阅读全帖
S******y
发帖数: 1123
12
来自主题: Statistics版 - 如何用python读取大数据 (转载)
我觉的有两个思路
1. 可以先用Python processing by line(s)
挑你需要的或summarized/rolled-up的数据写出来
再用pandas 或R做model
2. 如果真需要learn from entire data set 干脆直接
上mahout 或者 spark
b*****o
发帖数: 715
13
我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
weight自己laptop上就能跑的。
heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
light-weight: R, weka, d3, webGL, nltk, ...
我其实只对light-weight感兴趣,希望有大牛能发言。
j*******t
发帖数: 223
14
mahout的也有的算法是不需要hadoop的。
p****o
发帖数: 1340
15
来自主题: DataSciences版 - Big data是下一个大坑吗
哈哈,看大家的帖子,省了好多时间去寻找。
logistic regression的算法本身是顺序的,没有什么framework可以一般地
并行处理这种迭代算法的。在mahout中,logistic是用stochastic gradient
descent计算的,每步之间也不是并行的。可以利用的一点是让每一个节点
把中间计算值提前送到reducer,这样计算的时候不用等待需要的数据。

Dryad/
c****t
发帖数: 19049
16
来自主题: DataSciences版 - 征集版标
我是偏算法的,不过目前发言的好像搞硬件的居多?用hadoop那小象合适吗?hive那小
怪物会不会更生动?mahout好像是阿三话。。。
请各位推荐
r*******y
发帖数: 626
17
Not necessarily. If you model needs to process large amount of model and can
be coded in map-reduce framework. The whole model implementation could be
done in map-reduce, which is supposed to give you a lot of mileage on data
processing power and speed.
You can check out Mahout, which implements many classical ML models in map-
reduce.
s*********o
发帖数: 567
18
来自主题: DataSciences版 - 初入data science的困惑
理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
j*******g
发帖数: 331
19
来自主题: DataSciences版 - 初入data science的困惑
Hadoop, Hive, Pig, MapR, Mahout是网
lz是水手
你是老板还是网工呢?
c******n
发帖数: 4965
20
来自主题: DataSciences版 - pig能做iterative的问题吗?
that's why people invented spark , mahout is now being migrated to spark
exactly for this reason: a lot of ml algorithms are Interactive by nature

成2
n*****3
发帖数: 1584
21
the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?

n*****3
发帖数: 1584
22
the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?

f*****n
发帖数: 378
23
来自主题: DataSciences版 - 转发一个RECRUITER给的工作机会
【 以下文字转载自 Statistics 讨论区 】
发信人: flysoon (flysoon), 信区: Statistics
标 题: 转发一个RECRUITER给的工作机会
发信站: BBS 未名空间站 (Mon Nov 10 17:55:15 2014, 美东)
最重要的:说是希望下周就能开始上班,我干不了。工资据说是60一小时
联系信息:Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode... 阅读全帖
m**o
发帖数: 5261
24
来自主题: DataSciences版 - BIG DATA TOPICS
我在课上要求学生选择一种BIG DATA 技术所演讲。
我现在让学生学一个TOPIC。
我自己想到的TOPICS 有,
Apache Hive
Apache Hbase
Apache Pig and Pig Latin
Apache Cassandra
MongoDB
Apache Mahout
Apache Drill/ Google Dremel
Apache Stark and Storm
我在课上讲了MAP-REDUCE。 还有什么现在比较流行的大数据技术? 我对这方面不怎么
熟悉, 请帮助。
m***r
发帖数: 359
25
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-09
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-09/short.html
1) 【从SDN以及Docker看网络模型发生的变革】 by @DockerOne
关键词:虚拟化, Docker, 容器
【从SDN以及Docker看网络模型发生的变革】本文选自New Stack,是介绍SDN的系列文
章之一,这系列之前的几篇文章主要是介绍SDN相关的技术和工具,这篇文章以Docker
容器集群的网络模型为出发点,大致介绍了SocketPlane如何将SDN与Docker结合起来,
在跨主机的容器之间建立虚拟局域网。 [1]
[1] http://dockerone.com/article/188
2) 【基于Hadoop和Hbase的人类基因组/外显子组数据分析工具SeqHBase】 by @
biostack
关键词:分析, 计算框... 阅读全帖
t*********u
发帖数: 26311
26
从data scientist和analyst的角度
• Technical Upgrade Planning and Implementation
• Leveraging Hadoop 2.2 for Query Performance Improvements
• Solr Business Use Cases and Integration with Hadoop
• Machine Learning in Manufacturing (use cases, workshop, etc.)
• Discuss Kafka, Storm, Mahout, Spark in Supporting Sentiment
Analysis
• Discuss Hortonworks Data Science Capability and Service
Offerings
• Amazon Product Alerting
• B... 阅读全帖
x*********3
发帖数: 63
27
来自主题: DataSciences版 - 【内部推荐工作】
Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖
首页 上页 1 2 3 (共3页)