q********n 发帖数: 308 | 1 说是半小时,不知道能讲点什么?
一个小的网上购物公司 |
t******g 发帖数: 2253 | 2 看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等 |
c********h 发帖数: 330 | 3 半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们 |
q********n 发帖数: 308 | 4 忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
c********1 发帖数: 60 | 5 谢谢分享!很有意思的题目
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
c********1 发帖数: 60 | 6 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。 |
s*********h 发帖数: 6288 | 7 我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?
【在 c********1 的大作中提到】 : 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是 : 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像 : 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个 : regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率 : 的关系。到了这一步多半得用business sense了。
|
q********n 发帖数: 308 | 8 展开说说,这个太浮于水面了。
【在 s*********h 的大作中提到】 : 我的粗浅的想法: : 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多 : 方法可以搞。 : 如果是企业级客户,就用GLM的binomial试试?
|
L******t 发帖数: 585 | 9 电面就问技术问题啊
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
O*********h 发帖数: 140 | 10
请教一下,Q2的假变量指的是什么?dummy variable?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
|
|
q********n 发帖数: 308 | 11 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。
【在 O*********h 的大作中提到】 : : 请教一下,Q2的假变量指的是什么?dummy variable?
|
O*********h 发帖数: 140 | 12 请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。
【在 q********n 的大作中提到】 : 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量 : 其实用不着,问如何挑出这些来。
|
O*********h 发帖数: 140 | 13 说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
n*******y 发帖数: 437 | 14 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"... |
q********n 发帖数: 308 | 15 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
A****t 发帖数: 141 | 16 没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
c*******2 发帖数: 8 | 17 第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。 |
A****t 发帖数: 141 | 18 copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变 |
b********h 发帖数: 2451 | 19 你面的啥职位?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司
|
n*******y 发帖数: 437 | 20 我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂
【在 q********n 的大作中提到】 : 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的, : 可能是看的书的类型不对?
|
|
|
q********n 发帖数: 308 | 21 data scientist 啊
【在 b********h 的大作中提到】 : 你面的啥职位?
|
w**2 发帖数: 147 | 22 请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗? |
q********n 发帖数: 308 | 23 什么是 noisy?哪行的术语?
【在 w**2 的大作中提到】 : 请问, : 二是模型有2000个变量,有一半是假的,问如何甄别? : 能解释“假的”吗?是noisy吗?
|
k******g 发帖数: 24 | 24 Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。 |
j*******l 发帖数: 31 | |
F*****n 发帖数: 1552 | 26 这个要怒赞一把,太好了!我就看了三节课,立马明白上次面试为什么挂掉了。很久没
有这种听君一席话,胜读十年书的感觉了。
【在 j*******l 的大作中提到】 : 网络课 : http://www.r-bloggers.com/in-depth-introduction-to-machine-lear
|
T*****u 发帖数: 7103 | 27 我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。 |
r*********o 发帖数: 490 | |
y*******n 发帖数: 99 | 29 没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
s******t 发帖数: 71 | 30 Q1:
year <- c(2000 , 2001 , 2002 , 2003 , 2004)
rate <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60)
cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant. |
|
|
q********n 发帖数: 308 | 31 说是半小时,不知道能讲点什么?
一个小的网上购物公司
---------------------------------
一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
高模型精确度,需要解释为何?
二是模型有2000个变量,有一半是假的,问如何甄别?
三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
法降低退货率。 |
t******g 发帖数: 2253 | 32 看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等 |
c********h 发帖数: 330 | 33 半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们 |
q********n 发帖数: 308 | 34 忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
c********1 发帖数: 60 | 35 谢谢分享!很有意思的题目
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
c********1 发帖数: 60 | 36 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。 |
s*********h 发帖数: 6288 | 37 我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?
【在 c********1 的大作中提到】 : 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是 : 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像 : 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个 : regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率 : 的关系。到了这一步多半得用business sense了。
|
q********n 发帖数: 308 | 38 展开说说,这个太浮于水面了。
【在 s*********h 的大作中提到】 : 我的粗浅的想法: : 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多 : 方法可以搞。 : 如果是企业级客户,就用GLM的binomial试试?
|
L******t 发帖数: 585 | 39 电面就问技术问题啊
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
O*********h 发帖数: 140 | 40
请教一下,Q2的假变量指的是什么?dummy variable?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
|
|
q********n 发帖数: 308 | 41 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。
【在 O*********h 的大作中提到】 : : 请教一下,Q2的假变量指的是什么?dummy variable?
|
O*********h 发帖数: 140 | 42 请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。
【在 q********n 的大作中提到】 : 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量 : 其实用不着,问如何挑出这些来。
|
O*********h 发帖数: 140 | 43 说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
n*******y 发帖数: 437 | 44 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"... |
q********n 发帖数: 308 | 45 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
A****t 发帖数: 141 | 46 没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
c*******2 发帖数: 8 | 47 第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。 |
A****t 发帖数: 141 | 48 copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变 |
b********h 发帖数: 2451 | 49 你面的啥职位?
【在 q********n 的大作中提到】 : 说是半小时,不知道能讲点什么? : 一个小的网上购物公司 : --------------------------------- : 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提 : 高模型精确度,需要解释为何? : 二是模型有2000个变量,有一半是假的,问如何甄别? : 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办 : 法降低退货率。
|
n*******y 发帖数: 437 | 50 我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂
【在 q********n 的大作中提到】 : 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的, : 可能是看的书的类型不对?
|
|
|
q********n 发帖数: 308 | 51 data scientist 啊
【在 b********h 的大作中提到】 : 你面的啥职位?
|
w**2 发帖数: 147 | 52 请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗? |
q********n 发帖数: 308 | 53 什么是 noisy?哪行的术语?
【在 w**2 的大作中提到】 : 请问, : 二是模型有2000个变量,有一半是假的,问如何甄别? : 能解释“假的”吗?是noisy吗?
|
k******g 发帖数: 24 | 54 Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。 |
j*******l 发帖数: 31 | |
F*****n 发帖数: 1552 | 56 这个要怒赞一把,太好了!我就看了三节课,立马明白上次面试为什么挂掉了。很久没
有这种听君一席话,胜读十年书的感觉了。
【在 j*******l 的大作中提到】 : 网络课 : http://www.r-bloggers.com/in-depth-introduction-to-machine-lear
|
T*****u 发帖数: 7103 | 57 我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。 |
r*********o 发帖数: 490 | |
y*******n 发帖数: 99 | 59 没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教
【在 n*******y 的大作中提到】 : 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~ : 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到 : 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的 : confidence level很高,也就是误以为参数ai的standard error很小,confident : interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现 : 在你会误以为它significant。 : 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。 : 看data的人发现哇靠量了10000人全是6'6"...
|
s******t 发帖数: 71 | 60 Q1:
year <- c(2000 , 2001 , 2002 , 2003 , 2004)
rate <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60)
cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant. |
|
|
h******e 发帖数: 666 | 61 这个和bootstrap有啥不同?
谢谢
point
【在 A****t 的大作中提到】 : 没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在 : inference上也会得到一样的结果。如果是linear model的话,copy以后的data point : 不再是独立,model assumption就不一样了。
|