由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 敢问三爷现在学什么呐?
相关主题
SDE position available in a New Jersey based data center networking startup发一个Startup的面经 - Affirm
大家帮忙看看g公司的一个位置[salesforce面经]performance engineer
客户端性能分析调整--请教!Rails Developer面试题
Amazon要电面,但职位和我不是很match有大牛了解Oauth 吗? MS的
2 front end developers neededIT求职:刷题不如听我二计
CS Job Market崩溃在即了【申请双学位求建议】信安屌丝申请CS双学位,是否必要?
ServiceNow内推Senior Data Architect in an early-stage startup
Amazon.com电面ebay refer fresh graduate
相关话题的讨论汇总
话题: ml话题: server话题: 三爷话题: hadoop话题: data
进入JobHunting版参与讨论
1 (共1页)
p*****2
发帖数: 21240
1
想周末学点东西不知道学啥。
h***i
发帖数: 1970
2
统计

想周末学点东西不知道学啥。

【在 p*****2 的大作中提到】
: 想周末学点东西不知道学啥。
r*******n
发帖数: 3020
3
二爷您的node。js搞得怎么样了,有空分享下心得啊
俺想着搞得深入些,没找到门路呢。

【在 p*****2 的大作中提到】
: 想周末学点东西不知道学啥。
p*****2
发帖数: 21240
4

准备学习一下这个课程,大牛觉得有用吗?
https://www.coursera.org/course/ml?utm_campaign=2013-september-newsletter&
utm_date=1379509441&utm_source=newsletter&utm_user=2397505&utm_medium=email&
utm_recommendation=1&utm_variant=24

【在 h***i 的大作中提到】
: 统计
:
: 想周末学点东西不知道学啥。

p*****2
发帖数: 21240
5

很强大,addictive。大牛搞到什么程度呀?

【在 r*******n 的大作中提到】
: 二爷您的node。js搞得怎么样了,有空分享下心得啊
: 俺想着搞得深入些,没找到门路呢。

p*****2
发帖数: 21240
6

另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀


【在 h***i 的大作中提到】
: 统计
:
: 想周末学点东西不知道学啥。

w*********m
发帖数: 4740
7
hadoop就是个分散处理数据的平台。和machine learning没直接关系。
machine learning和统计差不多

【在 p*****2 的大作中提到】
:
: 另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀
: ?

p*****2
发帖数: 21240
8

ML用到Hadoop的情况多不多呀?data mining呢?

【在 w*********m 的大作中提到】
: hadoop就是个分散处理数据的平台。和machine learning没直接关系。
: machine learning和统计差不多

h***i
发帖数: 1970
9
ML建立模型,data mining是利用ML其他工具提取有用信息的过程,由于用ML的地方都
是大数据,最后也很可能需要写map reduce populate Hadoop. 能Online ML的就不需
要了。

另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀


【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?

w*********m
发帖数: 4740
10
以前ML数据量小,或者数据量大,但可以sample了在用
现在维度太大,常常几十万维度,所以希望用大数据量来做training
mahout就是把ML实现到hadoop上的
但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
于是又出现一些新的东西来解决这个问题,例如spark和graphlab
data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
才是data mining。
数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
找关于所有数据的最优),结果只能trade off用stochastic的办法,communication的
cost和问题巨大。

【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?

相关主题
CS Job Market崩溃在即了发一个Startup的面经 - Affirm
ServiceNow内推[salesforce面经]performance engineer
Amazon.com电面Rails Developer面试题
进入JobHunting版参与讨论
l*n
发帖数: 529
11
hadoop就是个map-reduce的实现,讨论ML/DM跟hadoop的关系,实际上就是MR跟ML/DM的
关系。google下"Map-Reduce for Machine Learning on Multicore"这个paper,感觉
是最能体现二者关系的结论。
ML算是DM的超集吧,DM倾向于结论需要human readable,ML的结果只要机器懂不用管人
看不看得明白。

【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?

w*********m
发帖数: 4740
12
offline解决的是大数据train model的速度问题
online一般是用model做prediction,速度一般不是大问题,主要是有的模型巨大,要
几十个G内存。但有时候问题也很大,比如多类别分类问题,当类别超过几千的时候,
反应时间会达到上百毫秒,这在online prediction是不能接受的。

【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?

p*****2
发帖数: 21240
13

ML
多谢大牛。长见识了。那现在job market上需要的ML主要是什么技能呢?

【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要

p*****2
发帖数: 21240
14

多谢了。讲的很明白。

【在 l*n 的大作中提到】
: hadoop就是个map-reduce的实现,讨论ML/DM跟hadoop的关系,实际上就是MR跟ML/DM的
: 关系。google下"Map-Reduce for Machine Learning on Multicore"这个paper,感觉
: 是最能体现二者关系的结论。
: ML算是DM的超集吧,DM倾向于结论需要human readable,ML的结果只要机器懂不用管人
: 看不看得明白。

p*****2
发帖数: 21240
15

一般prediction的时间要求是100ms以下?

【在 w*********m 的大作中提到】
: offline解决的是大数据train model的速度问题
: online一般是用model做prediction,速度一般不是大问题,主要是有的模型巨大,要
: 几十个G内存。但有时候问题也很大,比如多类别分类问题,当类别超过几千的时候,
: 反应时间会达到上百毫秒,这在online prediction是不能接受的。

p*****2
发帖数: 21240
16
一般做recommendation需要什么ML的算法呀?
w*********m
发帖数: 4740
17
如果以前不是搞ML的,最好不要转这边。这边top公司ML核心职位竞争非常激烈,全是
牛人。面试经验非常重要,还可能让你推导公司。
我搞了这么多年ML了,要去了牛公司都只能给人打杂,人家还不一定要我。要不就是在
非牛公司做点核心ML。
data engineer容易很多。

【在 p*****2 的大作中提到】
: 一般做recommendation需要什么ML的算法呀?
w*********m
发帖数: 4740
18
看具体应用10ms-500ms都可能

【在 p*****2 的大作中提到】
: 一般做recommendation需要什么ML的算法呀?
w*********m
发帖数: 4740
19
简单的就是数数,象amazon一样,assume没有data sparsity问题,有历史数据。
否则就麻烦了
自己看看netflix competition的paper吧

【在 p*****2 的大作中提到】
: 一般做recommendation需要什么ML的算法呀?
p*****2
发帖数: 21240
20

多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
么?统计和DM吗?
DM是不是能把很多ML现有的算法直接拿过来用呢?

【在 w*********m 的大作中提到】
: 如果以前不是搞ML的,最好不要转这边。这边top公司ML核心职位竞争非常激烈,全是
: 牛人。面试经验非常重要,还可能让你推导公司。
: 我搞了这么多年ML了,要去了牛公司都只能给人打杂,人家还不一定要我。要不就是在
: 非牛公司做点核心ML。
: data engineer容易很多。

相关主题
有大牛了解Oauth 吗? MS的Senior Data Architect in an early-stage startup
IT求职:刷题不如听我二计ebay refer fresh graduate
【申请双学位求建议】信安屌丝申请CS双学位,是否必要?Uber-NY onsite (zz)
进入JobHunting版参与讨论
b**********5
发帖数: 7881
21
前几天, 不是大家都叫那个人去walnartlab做recommendation么? 做recommendation
, 不就需要ml?

【在 w*********m 的大作中提到】
: 如果以前不是搞ML的,最好不要转这边。这边top公司ML核心职位竞争非常激烈,全是
: 牛人。面试经验非常重要,还可能让你推导公司。
: 我搞了这么多年ML了,要去了牛公司都只能给人打杂,人家还不一定要我。要不就是在
: 非牛公司做点核心ML。
: data engineer容易很多。

r*******n
发帖数: 3020
22
做了一个简单的 web service, 给一个URI, 返回一个数。
用了 express, 支持GET, POST 和 cross-domain。

【在 p*****2 的大作中提到】
:
: 多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
: 么?统计和DM吗?
: DM是不是能把很多ML现有的算法直接拿过来用呢?

w*********m
发帖数: 4740
23
data scientist有两种,一种其实是以前的BI analyst,偏marketing,要求不高,pay
得也不高
另外一种是developement team。pay得较高。但其实和software engineer相差也不大
。也是看牛度。
一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
scientist。只会用现成得显然不行。
当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
高段职位太看你的历史背景。
另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
所以专门的这样的角色,通常只适合大中公司。

【在 p*****2 的大作中提到】
:
: 多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
: 么?统计和DM吗?
: DM是不是能把很多ML现有的算法直接拿过来用呢?

w*********m
发帖数: 4740
24
他连什么是recommendation都不知道,估计过去是做data engineer的,不是scientist
, 不用懂ML。

recommendation

【在 b**********5 的大作中提到】
: 前几天, 不是大家都叫那个人去walnartlab做recommendation么? 做recommendation
: , 不就需要ml?

y******u
发帖数: 804
25
那个小朋友其实是隐牛
http://cis.upenn.edu/~yaytian/

scientist

【在 w*********m 的大作中提到】
: 他连什么是recommendation都不知道,估计过去是做data engineer的,不是scientist
: , 不用懂ML。
:
: recommendation

w*********m
发帖数: 4740
26
靠,这都能人肉。
不过看来他就是搞这方面的,技术是懂,不懂的是啥是walmart labs

【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

b**********5
发帖数: 7881
27
哇, 顿时刮目想看。 那些是 class project 么?

【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

f*******b
发帖数: 520
28



【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

p*****3
发帖数: 488
29

下了个hadoop玩了一下,学着配了个pseudo cluster,
下了一下第2章的weather data, 跑了一下程序,
晚上把它挪到EC2上去,就算入门了。

【在 p*****2 的大作中提到】
: 想周末学点东西不知道学啥。
c*******y
发帖数: 1630
30
还是个歌手,,哈哈

【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

相关主题
原来leetcode是这个意思。。大家帮忙看看g公司的一个位置
Senior Software Architect Austin,TX客户端性能分析调整--请教!
SDE position available in a New Jersey based data center networking startupAmazon要电面,但职位和我不是很match
进入JobHunting版参与讨论
k*********6
发帖数: 738
31
二位好勤奋!赞!

【在 p*****3 的大作中提到】
:
: 下了个hadoop玩了一下,学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序,
: 晚上把它挪到EC2上去,就算入门了。

p*****2
发帖数: 21240
32

cross domain什么意思?没用用backbone, angularjs啥的?

【在 r*******n 的大作中提到】
: 做了一个简单的 web service, 给一个URI, 返回一个数。
: 用了 express, 支持GET, POST 和 cross-domain。

r*******n
发帖数: 3020
33
cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
浏览器阻止ajax发出这样的请求。
比如你的web server的域名是 www.peking2.com,
在你的home page显示天气的温度, 你后端不需要做什么工作,
只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
类似这样做 用jQuery
$.get('www.weather.com/location/weather/temp', function(data){
$(#html_element).html(data);
};
来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。

【在 p*****2 的大作中提到】
:
: cross domain什么意思?没用用backbone, angularjs啥的?

g**e
发帖数: 6127
34
这个用apache mod_proxy配置一下就行了吧

【在 r*******n 的大作中提到】
: cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com,
: 在你的home page显示天气的温度, 你后端不需要做什么工作,
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
: 类似这样做 用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。

e*****t
发帖数: 1005
35
这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
cookie/session去做malicious的action。
具体例子,如果facebook的cookie不分domain,那当你访问我的网页可以直接有个ajax
call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.

【在 g**e 的大作中提到】
: 这个用apache mod_proxy配置一下就行了吧
g**e
发帖数: 6127
36
server端经常也是需要的,比如你的page要调用另外一个组的widget,而他们的domain
不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点

ajax

【在 e*****t 的大作中提到】
: 这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
: cookie/session去做malicious的action。
: 具体例子,如果facebook的cookie不分domain,那当你访问我的网页可以直接有个ajax
: call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.

p*****2
发帖数: 21240
37

这样就可以了吗?我以前做的是在server端做一个proxy service。

【在 r*******n 的大作中提到】
: cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com,
: 在你的home page显示天气的温度, 你后端不需要做什么工作,
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
: 类似这样做 用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。

g**e
发帖数: 6127
38
我们那都是这么干的,有一个专门的team做这事

【在 p*****2 的大作中提到】
:
: 这样就可以了吗?我以前做的是在server端做一个proxy service。

p*****2
发帖数: 21240
39

是呀。以前以为只能这么干。现在有什么其他办法吗。

【在 g**e 的大作中提到】
: 我们那都是这么干的,有一个专门的team做这事
R********n
发帖数: 519
40
re,现在很多职位都喜欢带上这个词,但其实里面很混,各种level/要求/待遇的都有
IT company里面不少data scientist是stat背景的人,但还有些有职位叫machine
learning engineer / scientist(要求更高些),这个是给CS背景的人

pay

【在 w*********m 的大作中提到】
: data scientist有两种,一种其实是以前的BI analyst,偏marketing,要求不高,pay
: 得也不高
: 另外一种是developement team。pay得较高。但其实和software engineer相差也不大
: 。也是看牛度。
: 一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
: scientist。只会用现成得显然不行。
: 当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
: 高段职位太看你的历史背景。
: 另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
: 所以专门的这样的角色,通常只适合大中公司。

相关主题
Amazon要电面,但职位和我不是很matchServiceNow内推
2 front end developers neededAmazon.com电面
CS Job Market崩溃在即了发一个Startup的面经 - Affirm
进入JobHunting版参与讨论
p*****2
发帖数: 21240
41
我说两点node的好处吧
1.单线程,使得并发计算容易了很多很多。不用在烦恼FP里所讲究的immutability, 也
不用烦恼thread里面的synchronization。Node本身就是thread safe的。
2. 高性能,任何操作都不需要等待,使得完成一件时间的时间大大缩短。
习惯了以后看到别人写同步的代码总觉得很浪费。
R********n
发帖数: 519
42
总结得很好~
简单的data mining or stat方法,大数据量,这个是目前大多数公司/职位的要求,用
hadoop类似的工具就能满足大部分要求
较复杂的ML甚至创新,且应用到大数据上,这个要求很高,对应的公司/职位也很少(比
如Google里面某些核心组,要求的都是专攻ml或者system的cs高水平phd)

ML

【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要

e*****t
发帖数: 1005
43
当然,怎么都离不开server端。 比如说刚刚举的例子,就需要server端设置cookie的
属性啊,比如说domain,path,还有一个很重要的就是httponly flag,这样javascript
,甚至java applet都不可见这个cookie了。
浏览器只是提供这些feature的support,最终都是server端来设置。
防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
别人的website interact,怎么搞。流行的方案自然是oauth.

domain
指点

【在 g**e 的大作中提到】
: server端经常也是需要的,比如你的page要调用另外一个组的widget,而他们的domain
: 不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点
:
: ajax

p*****2
发帖数: 21240
44

javascript
你说的这个交互还是server到server的吧?

【在 e*****t 的大作中提到】
: 当然,怎么都离不开server端。 比如说刚刚举的例子,就需要server端设置cookie的
: 属性啊,比如说domain,path,还有一个很重要的就是httponly flag,这样javascript
: ,甚至java applet都不可见这个cookie了。
: 浏览器只是提供这些feature的support,最终都是server端来设置。
: 防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
: 别人的website interact,怎么搞。流行的方案自然是oauth.
:
: domain
: 指点

e*****t
发帖数: 1005
45
离不开server去拿个token,不过之后就可以browser直接到对方的server了。直接
brwoser到对方server太容易被compromise了。

【在 p*****2 的大作中提到】
:
: javascript
: 你说的这个交互还是server到server的吧?

p*****2
发帖数: 21240
46

拿到token以后browser直接到对方server是什么实现机制呢?

【在 e*****t 的大作中提到】
: 离不开server去拿个token,不过之后就可以browser直接到对方的server了。直接
: brwoser到对方server太容易被compromise了。

p*****2
发帖数: 21240
47

三爷学的真快呀。

【在 p*****3 的大作中提到】
:
: 下了个hadoop玩了一下,学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序,
: 晚上把它挪到EC2上去,就算入门了。

e*****t
发帖数: 1005
48
永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
计数器,排名,广告这些这么搞?关键是security,如果是public什么问题都没有,可
是如果是需要authentication或者authorization的,人家就需要你somehow是验证过的
来防止XSS。
所以这个东西就是某种token (cookie本质上不也是header里面的token嘛)。oauth就
是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
要用你的facebook或者什么其他网站的permissions。

【在 p*****2 的大作中提到】
:
: 三爷学的真快呀。

r*******n
发帖数: 3020
49
是的
在Node.js里
返回每个请求之前 设置http head也就几行代码。
例子:
Access-Control-Allow-Origin: http://foo.example
Access-Control-Allow-Methods: POST, GET, OPTIONS

【在 g**e 的大作中提到】
: 这个用apache mod_proxy配置一下就行了吧
e*****t
发帖数: 1005
50
okay, 我知道你说什么了。这个是client side same origin policy.
放这些header,可以allow执行在foo.example domain上的javascripts access 这个页
面,以及它的DOM and etc.否则,虽然人在浏览器里可以看到(如果不是ajax call),但
javascripts是没法访问的。
这个跟我之前讨论的还是不完全一样的。

【在 r*******n 的大作中提到】
: 是的
: 在Node.js里
: 返回每个请求之前 设置http head也就几行代码。
: 例子:
: Access-Control-Allow-Origin: http://foo.example
: Access-Control-Allow-Methods: POST, GET, OPTIONS

相关主题
[salesforce面经]performance engineerIT求职:刷题不如听我二计
Rails Developer面试题【申请双学位求建议】信安屌丝申请CS双学位,是否必要?
有大牛了解Oauth 吗? MS的Senior Data Architect in an early-stage startup
进入JobHunting版参与讨论
z****e
发帖数: 54598
51
可以不用拿到整体数据
拿到一定程度的数据之后,直接用统计模型猜不就好了
这样可以有效减少多次遍历,如果有需要,再做二次比较深入的循环之类的
就跟nosql一样,对于重要的数据,上db,次要的,随便找个cassandra什么慢慢玩

ML

【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要

w*********m
发帖数: 4740
52
你是指random sample?

【在 z****e 的大作中提到】
: 可以不用拿到整体数据
: 拿到一定程度的数据之后,直接用统计模型猜不就好了
: 这样可以有效减少多次遍历,如果有需要,再做二次比较深入的循环之类的
: 就跟nosql一样,对于重要的数据,上db,次要的,随便找个cassandra什么慢慢玩
:
: ML

z****e
发帖数: 54598
53
只要满足一定条件的sample不就可以了
用apache common math lib,里面常用的统计模型都有
直接先扔一个猜测的包含有confidence的结果给客户
然后再增加一个额外的按钮,写上深入全面分析之类的文字
如果用户需要,再点这个按钮,然后再做比较全面的遍历

【在 w*********m 的大作中提到】
: 你是指random sample?
p*****2
发帖数: 21240
54

negotiate
oauth我知道,我不理解的是,你拿到facebook的token,然后你页面的JS就可以call
Facebook了?

【在 e*****t 的大作中提到】
: 永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
: 计数器,排名,广告这些这么搞?关键是security,如果是public什么问题都没有,可
: 是如果是需要authentication或者authorization的,人家就需要你somehow是验证过的
: 来防止XSS。
: 所以这个东西就是某种token (cookie本质上不也是header里面的token嘛)。oauth就
: 是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
: 的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
: 要用你的facebook或者什么其他网站的permissions。

p*****2
发帖数: 21240
55

这个意思呀。一般什么情况这么用?让别的网站脚本可以访问自己的页面。这个自己的
cookie还是不能被访问吧?

【在 e*****t 的大作中提到】
: okay, 我知道你说什么了。这个是client side same origin policy.
: 放这些header,可以allow执行在foo.example domain上的javascripts access 这个页
: 面,以及它的DOM and etc.否则,虽然人在浏览器里可以看到(如果不是ajax call),但
: javascripts是没法访问的。
: 这个跟我之前讨论的还是不完全一样的。

w*********m
发帖数: 4740
56
你说的是BI分析?

【在 z****e 的大作中提到】
: 只要满足一定条件的sample不就可以了
: 用apache common math lib,里面常用的统计模型都有
: 直接先扔一个猜测的包含有confidence的结果给客户
: 然后再增加一个额外的按钮,写上深入全面分析之类的文字
: 如果用户需要,再点这个按钮,然后再做比较全面的遍历

t**********h
发帖数: 2273
57
赞!

【在 p*****3 的大作中提到】
:
: 下了个hadoop玩了一下,学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序,
: 晚上把它挪到EC2上去,就算入门了。

f*******b
发帖数: 520
58

mark

【在 z****e 的大作中提到】
: 只要满足一定条件的sample不就可以了
: 用apache common math lib,里面常用的统计模型都有
: 直接先扔一个猜测的包含有confidence的结果给客户
: 然后再增加一个额外的按钮,写上深入全面分析之类的文字
: 如果用户需要,再点这个按钮,然后再做比较全面的遍历

h*d
发帖数: 19309
59
ML不是非要用统计的方法阿。

【在 w*********m 的大作中提到】
: hadoop就是个分散处理数据的平台。和machine learning没直接关系。
: machine learning和统计差不多

1 (共1页)
进入JobHunting版参与讨论
相关主题
ebay refer fresh graduate2 front end developers needed
Uber-NY onsite (zz)CS Job Market崩溃在即了
原来leetcode是这个意思。。ServiceNow内推
Senior Software Architect Austin,TXAmazon.com电面
SDE position available in a New Jersey based data center networking startup发一个Startup的面经 - Affirm
大家帮忙看看g公司的一个位置[salesforce面经]performance engineer
客户端性能分析调整--请教!Rails Developer面试题
Amazon要电面,但职位和我不是很match有大牛了解Oauth 吗? MS的
相关话题的讨论汇总
话题: ml话题: server话题: 三爷话题: hadoop话题: data