由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 大家电话面试都怎么准备的啊
相关主题
怎么online update model问一个 feature 相关性问题
转发一个RECRUITER给的工作机会请教一道面试题~~
PCA 可以用在mixture of continuous 和categorical variables (转载)请教一个facebook的面试题
Another opening needs immediate fill-in (转载)maximal information coefficient 问题
要不要转去Big Data部门说说最近的一次面试,兼告诫国人
内推 - Data scientist Or Consultant (医药咨询领域)工作中遇到的一个现象,问问大家怎么解释 (转载)
correlation coefficient (转载)有人面过square吗?
问一下python 或者是 R 里面 gradient boosting model 的问题求Uber、Airbnb、Square的Data Scientist面经
相关话题的讨论汇总
话题: error话题: year2话题: rate2话题: squared话题: fit2
进入DataSciences版参与讨论
1 (共1页)
q********n
发帖数: 308
1
说是半小时,不知道能讲点什么?
一个小的网上购物公司
t******g
发帖数: 2253
2
看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等
c********h
发帖数: 330
3
半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们
q********n
发帖数: 308
4
忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

c********1
发帖数: 60
5
谢谢分享!很有意思的题目

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

c********1
发帖数: 60
6
不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。
s*********h
发帖数: 6288
7
我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?

【在 c********1 的大作中提到】
: 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
: 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

q********n
发帖数: 308
8
展开说说,这个太浮于水面了。

【在 s*********h 的大作中提到】
: 我的粗浅的想法:
: 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
: 方法可以搞。
: 如果是企业级客户,就用GLM的binomial试试?

L******t
发帖数: 585
9
电面就问技术问题啊

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

O*********h
发帖数: 140
10

请教一下,Q2的假变量指的是什么?dummy variable?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

相关主题
内推 - Data scientist Or Consultant (医药咨询领域)问一个 feature 相关性问题
correlation coefficient (转载)请教一道面试题~~
问一下python 或者是 R 里面 gradient boosting model 的问题请教一个facebook的面试题
进入DataSciences版参与讨论
q********n
发帖数: 308
11
不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。

【在 O*********h 的大作中提到】
:
: 请教一下,Q2的假变量指的是什么?dummy variable?

O*********h
发帖数: 140
12
请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】
: 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
: 其实用不着,问如何挑出这些来。

O*********h
发帖数: 140
13
说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

n*******y
发帖数: 437
14
我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...
q********n
发帖数: 308
15
正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

A****t
发帖数: 141
16
没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

c*******2
发帖数: 8
17
第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。
A****t
发帖数: 141
18
copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变
b********h
发帖数: 2451
19
你面的啥职位?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

n*******y
发帖数: 437
20
我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂

【在 q********n 的大作中提到】
: 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
: 可能是看的书的类型不对?

相关主题
maximal information coefficient 问题有人面过square吗?
说说最近的一次面试,兼告诫国人求Uber、Airbnb、Square的Data Scientist面经
工作中遇到的一个现象,问问大家怎么解释 (转载)为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
进入DataSciences版参与讨论
q********n
发帖数: 308
21
data scientist 啊

【在 b********h 的大作中提到】
: 你面的啥职位?
w**2
发帖数: 147
22
请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗?
q********n
发帖数: 308
23
什么是 noisy?哪行的术语?

【在 w**2 的大作中提到】
: 请问,
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 能解释“假的”吗?是noisy吗?

k******g
发帖数: 24
24
Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。
j*******l
发帖数: 31
F*****n
发帖数: 1552
26
这个要怒赞一把,太好了!我就看了三节课,立马明白上次面试为什么挂掉了。很久没
有这种听君一席话,胜读十年书的感觉了。

【在 j*******l 的大作中提到】
: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*****u
发帖数: 7103
27
我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。
r*********o
发帖数: 490
28
zan!

【在 j*******l 的大作中提到】
: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*******n
发帖数: 99
29
没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

s******t
发帖数: 71
30
Q1:
year <- c(2000 , 2001 , 2002 , 2003 , 2004)
rate <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60)
cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.
相关主题
如何evaluate an unsupervised learning method?转发一个RECRUITER给的工作机会
SAS PROC VARCLUS 问题求救 (转载)PCA 可以用在mixture of continuous 和categorical variables (转载)
怎么online update modelAnother opening needs immediate fill-in (转载)
进入DataSciences版参与讨论
q********n
发帖数: 308
31
说是半小时,不知道能讲点什么?
一个小的网上购物公司
---------------------------------
一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
高模型精确度,需要解释为何?
二是模型有2000个变量,有一半是假的,问如何甄别?
三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
法降低退货率。
t******g
发帖数: 2253
32
看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等
c********h
发帖数: 330
33
半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们
q********n
发帖数: 308
34
忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

c********1
发帖数: 60
35
谢谢分享!很有意思的题目

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

c********1
发帖数: 60
36
不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。
s*********h
发帖数: 6288
37
我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?

【在 c********1 的大作中提到】
: 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
: 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

q********n
发帖数: 308
38
展开说说,这个太浮于水面了。

【在 s*********h 的大作中提到】
: 我的粗浅的想法:
: 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
: 方法可以搞。
: 如果是企业级客户,就用GLM的binomial试试?

L******t
发帖数: 585
39
电面就问技术问题啊

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

O*********h
发帖数: 140
40

请教一下,Q2的假变量指的是什么?dummy variable?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

相关主题
Another opening needs immediate fill-in (转载)correlation coefficient (转载)
要不要转去Big Data部门问一下python 或者是 R 里面 gradient boosting model 的问题
内推 - Data scientist Or Consultant (医药咨询领域)问一个 feature 相关性问题
进入DataSciences版参与讨论
q********n
发帖数: 308
41
不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。

【在 O*********h 的大作中提到】
:
: 请教一下,Q2的假变量指的是什么?dummy variable?

O*********h
发帖数: 140
42
请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】
: 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
: 其实用不着,问如何挑出这些来。

O*********h
发帖数: 140
43
说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

n*******y
发帖数: 437
44
我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...
q********n
发帖数: 308
45
正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

A****t
发帖数: 141
46
没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

c*******2
发帖数: 8
47
第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。
A****t
发帖数: 141
48
copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变
b********h
发帖数: 2451
49
你面的啥职位?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

n*******y
发帖数: 437
50
我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂

【在 q********n 的大作中提到】
: 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
: 可能是看的书的类型不对?

相关主题
请教一道面试题~~说说最近的一次面试,兼告诫国人
请教一个facebook的面试题工作中遇到的一个现象,问问大家怎么解释 (转载)
maximal information coefficient 问题有人面过square吗?
进入DataSciences版参与讨论
q********n
发帖数: 308
51
data scientist 啊

【在 b********h 的大作中提到】
: 你面的啥职位?
w**2
发帖数: 147
52
请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗?
q********n
发帖数: 308
53
什么是 noisy?哪行的术语?

【在 w**2 的大作中提到】
: 请问,
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 能解释“假的”吗?是noisy吗?

k******g
发帖数: 24
54
Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。
j*******l
发帖数: 31
F*****n
发帖数: 1552
56
这个要怒赞一把,太好了!我就看了三节课,立马明白上次面试为什么挂掉了。很久没
有这种听君一席话,胜读十年书的感觉了。

【在 j*******l 的大作中提到】
: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*****u
发帖数: 7103
57
我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。
r*********o
发帖数: 490
58
zan!

【在 j*******l 的大作中提到】
: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*******n
发帖数: 99
59
没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

s******t
发帖数: 71
60
Q1:
year <- c(2000 , 2001 , 2002 , 2003 , 2004)
rate <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60)
cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.
相关主题
求Uber、Airbnb、Square的Data Scientist面经SAS PROC VARCLUS 问题求救 (转载)
为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM怎么online update model
如何evaluate an unsupervised learning method?转发一个RECRUITER给的工作机会
进入DataSciences版参与讨论
h******e
发帖数: 666
61
这个和bootstrap有啥不同?
谢谢

point

【在 A****t 的大作中提到】
: 没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
: inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
: 不再是独立,model assumption就不一样了。

1 (共1页)
进入DataSciences版参与讨论
相关主题
求Uber、Airbnb、Square的Data Scientist面经要不要转去Big Data部门
为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM内推 - Data scientist Or Consultant (医药咨询领域)
如何evaluate an unsupervised learning method?correlation coefficient (转载)
SAS PROC VARCLUS 问题求救 (转载)问一下python 或者是 R 里面 gradient boosting model 的问题
怎么online update model问一个 feature 相关性问题
转发一个RECRUITER给的工作机会请教一道面试题~~
PCA 可以用在mixture of continuous 和categorical variables (转载)请教一个facebook的面试题
Another opening needs immediate fill-in (转载)maximal information coefficient 问题
相关话题的讨论汇总
话题: error话题: year2话题: rate2话题: squared话题: fit2