c***z 发帖数: 6348 | 1 Thanks paper MM
Moving some more exp here
抛砖引玉,简单的说一下经验吧。我数学转统计的,所以不见得正确。欢迎大牛们多多
指点。
我觉得统计类找工作最好找金融系统,这样进可攻时间序列去花街,或者机器学习去当
DS,或者转咨询;退呢金融里面的统计pay的不错,也稳定。药厂,保险公司,
healthcare的似乎没这么多exit options。
如果想做DS,可以考虑这样爬科技树:logit regression -> neural network;
decision tree -> random forest; naive Bayes -> HMM -> HLDA (latent Dirichlet
allocation, 目前最hot的topic mining model); 再加survival analysis。编程语言
选R和python。然后在自己工作的project里面把这些实现以下,知道实际中会遇到的问
题。
下一步比较偏编程,事实上我也在学:unix + java + hadoop + mahout for ML +
hive o... 阅读全帖 |
|
S******y 发帖数: 1123 | 2 最近看到不少帖子,讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活,在平常工作中不
断提高SAS水平,也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区,从此开始了"二
次创业"的奋斗史 (教训啊 来湾区的决定要慎重:-)
落脚未稳,首先就发现SAS在湾区不是主流技术(银行,药厂除外),大部分主流科技公
司对SAS可以说是有点排斥的 (越新的公司越如此)。也情有可缘,这里的公司更cost
effective, 即使买得起统计软件,也不愿在技术工具上受制于人。我曾有一次向老板
大力推荐SAS,要求公司买SAS licenses,他们也照做了,现在想起来可能人家多花
了几万块买SAS licenses也有点不太情愿吧。(唉,自己当时太年轻了 :-)
改变不了世界就改变自己吧:-)
于是我就想办法逐渐换自己的skill set。这个转化过程需要点时间,我也得... 阅读全帖 |
|
n*****3 发帖数: 1584 | 3 好
mahout 不是 Java only吗?已经有python wrap 了? |
|
S******y 发帖数: 1123 | 4 ------------------------------------------------------------------------
欢迎上我的两小时Python/R/SAS实战速成课程
欢迎联络我 m*********[email protected]
http://plus.google.com/109275868505226513618/about
------------------------------------------------------------------------
最近看到不少帖子,讨论到学习Python 与 R 的需求。
我想在这里分享一下自己的经历。希望对大家有帮助 :-)
我以前在传统行业做统计和SAS programming. 过着平稳的技术生活,在平常工作中不
断提高SAS水平,也曾去SAS Conference 做过 presentation. 也算是老板手下的SAS技
术骨干吧 (心里也挺踏实:-)。可是我N年前一个偶然的机会来到湾区,从此开始了"二
次创业"的奋斗史 (教训啊 来湾区的决定要慎重:-)
落脚未稳,首先就发现SAS在湾区不... 阅读全帖 |
|
n*****3 发帖数: 1584 | 5 好
mahout 不是 Java only吗?已经有python wrap 了? |
|
|
p****2 发帖数: 518 | 7 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
|
p****2 发帖数: 518 | 8 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
|
l******n 发帖数: 9344 | 9 SAS只是提供了调用接口
~~~~~~~~~~~~~~~~~~~~~
我怎么觉得换成R,Python,Mahout都不会有什么问题
reduce |
|
S******y 发帖数: 1123 | 10 Thanks for sharing the fun stuff you are working on!
Let me give a try by brainstorming :-)
At first, have a productID column so it allows one productID to have
multiple prod names across sites
1.-3. Pig summarizes data in Hadoop
4. Pig summarizes data in Hadoop ==> R/Python building models (quick and
dirty aggregate-level)
5. Mahout (item-based collaborative filtering)
Just my 2 cents :-)
statsGuy
m*********[email protected]
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about |
|
f*****n 发帖数: 378 | 11 最重要的:说是希望下周就能开始上班,我干不了。工资据说是60一小时
联系信息:Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode(c);}s=document.createTextNode(s);l.parentNode.replaceChild(s,l);}}catch(e){}})();
/* ]]> */
RCG Global Services
-------------------------... 阅读全帖 |
|
S******y 发帖数: 1123 | 12 我觉的有两个思路
1. 可以先用Python processing by line(s)
挑你需要的或summarized/rolled-up的数据写出来
再用pandas 或R做model
2. 如果真需要learn from entire data set 干脆直接
上mahout 或者 spark |
|
b*****o 发帖数: 715 | 13 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
weight自己laptop上就能跑的。
heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
light-weight: R, weka, d3, webGL, nltk, ...
我其实只对light-weight感兴趣,希望有大牛能发言。 |
|
j*******t 发帖数: 223 | 14 mahout的也有的算法是不需要hadoop的。 |
|
p****o 发帖数: 1340 | 15 哈哈,看大家的帖子,省了好多时间去寻找。
logistic regression的算法本身是顺序的,没有什么framework可以一般地
并行处理这种迭代算法的。在mahout中,logistic是用stochastic gradient
descent计算的,每步之间也不是并行的。可以利用的一点是让每一个节点
把中间计算值提前送到reducer,这样计算的时候不用等待需要的数据。
Dryad/ |
|
c****t 发帖数: 19049 | 16 来自主题: DataSciences版 - 征集版标 我是偏算法的,不过目前发言的好像搞硬件的居多?用hadoop那小象合适吗?hive那小
怪物会不会更生动?mahout好像是阿三话。。。
请各位推荐 |
|
r*******y 发帖数: 626 | 17 Not necessarily. If you model needs to process large amount of model and can
be coded in map-reduce framework. The whole model implementation could be
done in map-reduce, which is supposed to give you a lot of mileage on data
processing power and speed.
You can check out Mahout, which implements many classical ML models in map-
reduce. |
|
s*********o 发帖数: 567 | 18 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。 |
|
j*******g 发帖数: 331 | 19 Hadoop, Hive, Pig, MapR, Mahout是网
lz是水手
你是老板还是网工呢? |
|
c******n 发帖数: 4965 | 20 that's why people invented spark , mahout is now being migrated to spark
exactly for this reason: a lot of ml algorithms are Interactive by nature
成2 |
|
n*****3 发帖数: 1584 | 21 the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?
|
|
n*****3 发帖数: 1584 | 22 the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?
|
|
f*****n 发帖数: 378 | 23 【 以下文字转载自 Statistics 讨论区 】
发信人: flysoon (flysoon), 信区: Statistics
标 题: 转发一个RECRUITER给的工作机会
发信站: BBS 未名空间站 (Mon Nov 10 17:55:15 2014, 美东)
最重要的:说是希望下周就能开始上班,我干不了。工资据说是60一小时
联系信息:Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode... 阅读全帖 |
|
m**o 发帖数: 5261 | 24 我在课上要求学生选择一种BIG DATA 技术所演讲。
我现在让学生学一个TOPIC。
我自己想到的TOPICS 有,
Apache Hive
Apache Hbase
Apache Pig and Pig Latin
Apache Cassandra
MongoDB
Apache Mahout
Apache Drill/ Google Dremel
Apache Stark and Storm
我在课上讲了MAP-REDUCE。 还有什么现在比较流行的大数据技术? 我对这方面不怎么
熟悉, 请帮助。 |
|
|
t*********u 发帖数: 26311 | 26 从data scientist和analyst的角度
• Technical Upgrade Planning and Implementation
• Leveraging Hadoop 2.2 for Query Performance Improvements
• Solr Business Use Cases and Integration with Hadoop
• Machine Learning in Manufacturing (use cases, workshop, etc.)
• Discuss Kafka, Storm, Mahout, Spark in Supporting Sentiment
Analysis
• Discuss Hortonworks Data Science Capability and Service
Offerings
• Amazon Product Alerting
• B... 阅读全帖 |
|
x*********3 发帖数: 63 | 27 Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖 |
|