由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 如果还在学校,这些课有兴趣的可以关注一下
相关主题
这个题目该怎么做[跪求解答]F1(no opt, not graduate in May'13)转H1B有无Cap-G
南加州的job openning两个offer如何选
攒人品,google电话面经f design question 求讨论
twitter电面CS Master核心课程7选3 (转载)
问个计算化学问题:怎么读GRID?看到个面试题,不会做……
计算机菜鸟找工作, 求一些建议面试不问算法,才能体现水平
Leetcode上的Unique Paths II,我的code对吗?FB onsite 面经
offer选择求助opt加急[Update]
相关话题的讨论汇总
话题: data话题: streams话题: computing话题: stream
进入JobHunting版参与讨论
1 (共1页)
z****e
发帖数: 54598
1
找课程名里面的关键字
distributed,这个是基础,几乎是下面所有的基础
如果没有上过,一般不让上这些课
另外一个基础课是object oriented programming,就是java
下面大多数东西都是java为基础的延伸,都跑在jvm上
语言基本上是java为主,python为辅的结构
cluster
cloud,参考关键字aws
streaming,参考关键字,storm, spark这些
functional programming
declarative programming,这两个应该会凑到一块去
mobile,参考关键字android和ios
advanced database 这个比较含糊,容易搞成传统的db,打开syllabus找nosql
web service,参考关键字soap和rest
statistics,这个范围很广,想想学过数学分析没有,如果没有数学基础就不要死磕了
machine learning,参考关键字weka
hadoop,storm什么只是具体的产品和实现,原理都在上面这些里面
跟hr说hadoop这些,跟面官可以聊使用经验
但是说理论,就跟他们扯这些上课上的东西
学完了这些课都放到linkedin上去,对hr有一定吸引力
z****e
发帖数: 54598
2
fp一般是白人上
nosql这些很容易遇到阿三老师
cloud这些一半对一半吧
纯理科的也不要妄自菲薄
现在web的大数据比起bio上的数据量来说
还是小很多的,而且有生物数据库,比如基因库的地方
往往会开这些课
还有统计对于现在大数据的应用将会很热门
z****e
发帖数: 54598
3
贴几个参考的课程描述
统计和ml
With exponential increases in the amount of data becoming available in
fields such as finance and biology, and on the web, there is an ever-greater
need for methods to detect interesting patterns in that data, and classify
novel data points based on curated data sets. Statistical machine learning
and evolutionary computation provide the means to perform this analysis
automatically, and in doing so to enhance understanding of general processes
or to predict future events.
Topics covered will include: association rules, clustering, instance-based
learning, statistical learning, evolutionary algorithms, swarm intelligence,
neural networks, numeric prediction, weakly supervised classification,
discretisation, feature selection and classifier combination.
This subject is intended to introduce graduate students to machine learning
though a mixture of theoretical methods and hands-on practical experience in
applying those methods to real-world problems
dp
Declarative programming languages provide elegant and powerful programming
paradigms which every programmer should know. This subject presents
declarative programming languages and techniques.
nosql
Many applications require access to very large amounts of data. These
applications often require reliability (data must not be lost even in the
presence of hardware failures), and the ability to retrieve and process the
data very efficiently.
The subject will cover the technologies used in advanced database systems.
Topics covered will include: transactions, including concurrency,
reliability (the ACID properties) and performance; and indexing of both
structured and unstructured data. The subject will also cover additional
topics such as: uncertain data; Xquery; the Semantic Web and the Resource
Description Framework; dataspaces and data provenance; datacentres; and data
archiving.
cloud
The growing popularity of the Internet along with the availability of
powerful computers and high-speed networks as low-cost commodity components
are changing the way we do parallel and distributed computing (PDC). The PDC
on local-area-networks is called "cluster computing " and wide-area
networks is called "grid computing" . Clusters employ cost-effective
commodity components for building powerful computers within local-area
networks, and Grids allow to share and aggregate geographically distributed
resources. Recently, “cloud computing” emerged as the new paradigm for
delivery of computing as services in a pay-as-you-go-model via the Internet.
This revolutionary new paradigm has its roots, and therefore shares many
characteristics, with grids.
Some examples of scientific and industrial applications that use these
computing platforms are: system simulations, weather forecasting, climate
prediction, automobile modelling and design, high-energy physics, movie
rendering, business intelligence, bigdata computing, and delivering various
business and consumer applications on a pay-as-you-go basis.
This subject will enable students to understand these technologies, its
goals, characteristics, and limitations, and develop both middleware
supporting them and scalable applications supported by these platforms.
This subject is an elective subject in the Master of Information Technology
and a mandatory for the Distributed Computing Specialisation. It can also be
taken as an Advanced Elective subject in the Master of Engineering (
Software).
streaming
AIMS
With exponential growth in data generated from sensor data streams, search
engines, spam filters, medical services, online analysis of financial data
streams, and so forth, there is demand for fast monitoring and storage of
huge amounts of data in real-time. Traditional technologies were not aimed
to such fast streams of data. Usually they required data to be stored and
indexed before it could be processed.
Stream computing was created to tackle those problems that require
processing and classification of continuous, high volume of data streams. It
is highly used on applications such as Twitter, Facebook, High Frequency
Trading and so forth.
The Stream computing course will interest students who want to learn more
about real-time processing and its applications. It will be taught both from
atheoretical and practical point of view. The course will cover underlying
fundamentals of stream processing systems, particularly architectural issues
and algorithms for stream processing, mining and analysis. It will also
include tutorials on how to develop and deploy applications into platforms
such as IBM InfoSphere Streams®.
INDICATIVE CONTENT
Why stream processing is important
Data streams model
Data streams algorithms: Sampling, sketching, distinct items, frequent items
, etc.
Data streams synopses: Histograms, sketches, wavelets, etc.
Stream processing platforms: Infosphere Streams, Storm, Spark Streaming, etc.
Data streams mining: Classification, clustering, etc.
l******6
发帖数: 340
4
已经毕业了 请教一下有什么网上的distribute的open course 或者课件 比较好
g**4
发帖数: 863
5
多谢zhaoce大牛提供信息!!
这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
advanced,是做rest。这2门课都是enterprise方向。
但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
distributed system的open course。
下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
enterprise方向比较下?
个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。
问题比较多,先谢过大牛!

【在 z****e 的大作中提到】
: 找课程名里面的关键字
: distributed,这个是基础,几乎是下面所有的基础
: 如果没有上过,一般不让上这些课
: 另外一个基础课是object oriented programming,就是java
: 下面大多数东西都是java为基础的延伸,都跑在jvm上
: 语言基本上是java为主,python为辅的结构
: cluster
: cloud,参考关键字aws
: streaming,参考关键字,storm, spark这些
: functional programming

O*********y
发帖数: 923
6
谢谢楼主,有人和我说工业界不怎麽用weka做data mining,是这样吗?unix script
programming是不是经常用在data mining 或者machine learning里?谢谢
R********t
发帖数: 204
7
Mark. Thanks for sharing
z****e
发帖数: 54598
8
是不怎么用weka做data mining
data mining主要是有data warehouse相关产品,看用什么产品就用什么
weka是用来做ml的,ml和dm之间还是有区别的
unix script指什么?bash/shell那些主要是类unix平台上效率高
常见的grep效率高很多,尤其是server一般都不会有什么可视化的界面
所以command line就显得很重要,只能用这种方式去操作server
ml的话,工具是次要的,理论上用什么都可以,r和sas那些
但是python会用得多一点,主要是python即可以用来写script
也有一定的oo特性,还有就是python可读性也很强,bash shell那些命令行实在太蛋疼
那些命令很不直观,而如果要将这些逻辑转换成app的话,因为数据前面一层都是jvm
所以java就很容易用上,还有就是操作text等,perl就比较擅长
perl尤其擅长用来对付文本,文字各种操作,mariadb里面就有一部分是perl写的
github就是ruby搞的,因为ruby这种类perl脚本对于各种文字处理比较强大
不过这些都是工具,理论指导实践
理论更重要

【在 O*********y 的大作中提到】
: 谢谢楼主,有人和我说工业界不怎麽用weka做data mining,是这样吗?unix script
: programming是不是经常用在data mining 或者machine learning里?谢谢

z****e
发帖数: 54598
9
这不是做得挺好的
这个distributed system的课还是比较负责的,jms, web service什么都教
所谓分布式以前发展最大的就是j2ee
jms就是j2ee的一个部分,理论上web那些java的东西,比j2ee要简单点
j2ee很多时候文绉绉的,不是那么便于理解
你下学期选什么,看你自己的背景
要做data什么叉叉没那么容易,要求相对高很多
如果是理科转行的话,比如从统计或者数学这样转过来
会比较合适做这块,有个相关学位的话会更适合做这一块,尤其是搞统计的
我从来都觉得统计是一个很好的专业,应用数学就是cs和统计
不过不仅这块门槛高,机会也不是那么多,不象开发那样多机会
选cloud就没有这个问题
ml和dm这一块,无非数据爆炸,然后如何萃取出数据
然后再分析再处理,这个过程中各个语言都有其优点
比如perl对于文本处理,python用来替换脚本,传统上r和sas的各种统计工具
java对于jvm的贴切,很难说用什么最好,随便你用,只要你知道自己在做什么
老师上课不会教你怎么用这些工具,会更侧重理论,然后课程中会做project
你自己觉得哪个语言顺手就操哪个上,不过多数人会选择java和python
如果用c++做的话,很容易出现连组队都找不到人组队的尴尬
还有就是data mining这行其实一直都存在
以前database时代,data mining就有一定的市场
这两个还是有点区别的

行。

【在 g**4 的大作中提到】
: 多谢zhaoce大牛提供信息!!
: 这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
: 进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
: advanced,是做rest。这2门课都是enterprise方向。
: 但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
: distributed system的open course。
: 下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
: 另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
: enterprise方向比较下?
: 个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。

z****e
发帖数: 54598
10
distributed system开源的,jboss就是一个非常强大的工具
里面应有尽有,随便你折腾,只要你懂,不过这对于big data部分偏弱
big data部分就看hadoop和nosql那些
然后cloud自己找个cloud平台去玩去,aws吧,我用rhcloud
或者google computing engine,不过google的比较贵,三年折扣下来比aws贵三倍
而且小折腾,不舒服,还是aws吧,一年一百刀不到
不过如果你写过compiler的话,可能了解一下openstack这些,还有virtualisation这些
可能会更有前途,不过以后要做偏底层的工作,不知道你是否乐意酱紫

行。

【在 g**4 的大作中提到】
: 多谢zhaoce大牛提供信息!!
: 这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
: 进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
: advanced,是做rest。这2门课都是enterprise方向。
: 但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
: distributed system的open course。
: 下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
: 另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
: enterprise方向比较下?
: 个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。

相关主题
计算机菜鸟找工作, 求一些建议[跪求解答]F1(no opt, not graduate in May'13)转H1B有无Cap-G
Leetcode上的Unique Paths II,我的code对吗?两个offer如何选
offer选择求助f design question 求讨论
进入JobHunting版参与讨论
z****e
发帖数: 54598
11
coursera?
不过当地肯定有大学,随便找个大学的研究生课进去旁听也没啥问题
就是上课一般是白天,这个有点蛋疼,赚钱也在白天

【在 l******6 的大作中提到】
: 已经毕业了 请教一下有什么网上的distribute的open course 或者课件 比较好
z****e
发帖数: 54598
12
dm侧重对于现有数据的分析
ml则侧重对于将来的预测
所以ml往往要做成application,而数据持久化前面一层多半就是jvm
这个时候要转换成java代码,要不然老板看不到
而java写复杂的数学算式太蛋疼了,所以这个时候一些clojure
还有scala就有一定优势,因为复杂数学公式本身就是fp擅长的领域
而java是oop,所以不是那么擅长,这里面还大有文章可以做
荒淫钓丝们做炮灰
g**4
发帖数: 863
13
解释的太棒了!大牛你太博学了!
确实准备开个AWS,把做完的东西都丢上去。底层的很喜欢,就怕机会没那么多。感觉
要学的、能学的、想学的实在是太多了,既担心又兴奋
还有个疑问,都说cloud computing可以理解是distributed computing的特殊情况,
enterprise方向又都用的是distributed system,那是不是cloud跟enterprise方向有
很多互通,可以双修双持?

这些

【在 z****e 的大作中提到】
: distributed system开源的,jboss就是一个非常强大的工具
: 里面应有尽有,随便你折腾,只要你懂,不过这对于big data部分偏弱
: big data部分就看hadoop和nosql那些
: 然后cloud自己找个cloud平台去玩去,aws吧,我用rhcloud
: 或者google computing engine,不过google的比较贵,三年折扣下来比aws贵三倍
: 而且小折腾,不舒服,还是aws吧,一年一百刀不到
: 不过如果你写过compiler的话,可能了解一下openstack这些,还有virtualisation这些
: 可能会更有前途,不过以后要做偏底层的工作,不知道你是否乐意酱紫
:
: 行。

z****e
发帖数: 54598
14
企业应用比web应用的实效性安全性要求更高
可以模糊地认为就是private cloud
而一般意义上的cloud是public cloud
从cloud的眼光来看,企业应用就是或者说严谨一点,接近private cloud
反过来,从企业应用来看
public cloud就是用公网上的rpc替换传统内网rpc的distributed system
这两个互相之间没有太大的区别,这两个并不互相冲突
这也是为什么distributed system是cloud的prerequisite course的原因
可能有一个主要区别就是virtualisation,虚拟机技术
cloud用vm用得比较多,而一般企业的分布式则不用虚拟机去host guest os

【在 g**4 的大作中提到】
: 解释的太棒了!大牛你太博学了!
: 确实准备开个AWS,把做完的东西都丢上去。底层的很喜欢,就怕机会没那么多。感觉
: 要学的、能学的、想学的实在是太多了,既担心又兴奋
: 还有个疑问,都说cloud computing可以理解是distributed computing的特殊情况,
: enterprise方向又都用的是distributed system,那是不是cloud跟enterprise方向有
: 很多互通,可以双修双持?
:
: 这些

g**4
发帖数: 863
15
明白了!再次感谢zhaoce大牛!

【在 z****e 的大作中提到】
: 企业应用比web应用的实效性安全性要求更高
: 可以模糊地认为就是private cloud
: 而一般意义上的cloud是public cloud
: 从cloud的眼光来看,企业应用就是或者说严谨一点,接近private cloud
: 反过来,从企业应用来看
: public cloud就是用公网上的rpc替换传统内网rpc的distributed system
: 这两个互相之间没有太大的区别,这两个并不互相冲突
: 这也是为什么distributed system是cloud的prerequisite course的原因
: 可能有一个主要区别就是virtualisation,虚拟机技术
: cloud用vm用得比较多,而一般企业的分布式则不用虚拟机去host guest os

g*******o
发帖数: 156
16
大牛说得太好了~~~
佩服!

【在 z****e 的大作中提到】
: 这不是做得挺好的
: 这个distributed system的课还是比较负责的,jms, web service什么都教
: 所谓分布式以前发展最大的就是j2ee
: jms就是j2ee的一个部分,理论上web那些java的东西,比j2ee要简单点
: j2ee很多时候文绉绉的,不是那么便于理解
: 你下学期选什么,看你自己的背景
: 要做data什么叉叉没那么容易,要求相对高很多
: 如果是理科转行的话,比如从统计或者数学这样转过来
: 会比较合适做这块,有个相关学位的话会更适合做这一块,尤其是搞统计的
: 我从来都觉得统计是一个很好的专业,应用数学就是cs和统计

1 (共1页)
进入JobHunting版参与讨论
相关主题
opt加急[Update]问个计算化学问题:怎么读GRID?
amazon second phone interview计算机菜鸟找工作, 求一些建议
A mechanical engineer opening in Houston, TXLeetcode上的Unique Paths II,我的code对吗?
Facebook 三面挂了 555555offer选择求助
这个题目该怎么做[跪求解答]F1(no opt, not graduate in May'13)转H1B有无Cap-G
南加州的job openning两个offer如何选
攒人品,google电话面经f design question 求讨论
twitter电面CS Master核心课程7选3 (转载)
相关话题的讨论汇总
话题: data话题: streams话题: computing话题: stream