抓狂！为啥选出来的predictor都这么差 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 抓狂！为啥选出来的predictor都这么差

相关主题
● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧	● 新手请教logistic regression
● 请问：想fit gamma 并同时用lasso的方法做variable selection	● One interview question:) Looking for help
● ##面试过了，请教问题##	● model里有multicollinearity，该如何处理呢？
● model的predictors之间有multi-colinearity怎么办？	● logistic regression 问题
● logistic regression结果释疑，解读	● 新鲜出炉的google面经！大家帮我看看答的怎样吧！
● 请教一个multi colinearity的问题	● 关于使用adaptive lasso中weight的问题
● 有80个候选Predictors,怎么从中选<10个	● 帮我看看这个logistic regression output包子谢
● logistic, overfit了怎么办？	● Re: 请问multi variate linear regression 选择risk factor 问(转载)

相关话题的讨论汇总
话题: model话题: predictor话题: variable话题: stepwise

进入Statistics版参与讨论

(共1页)

f******h
发帖数: 46

上百个independent var肯定是有很强的multicollinearity的，于是就根据proc reg的
VI，从最大的VI开始剔除，一次一个，终于剩下的所有VI都比4小了。可是发现剩下的
independent var都跟dependent var的correlation很小，corr大的全都被剔除掉了，
郁闷啊。
这样的model明显好不了，事实也证明确实这样。随便拿了一个0.9 corr的var回来，简
单stepwise回归出来的model的R^2就提高了很多，而且也没有VI大于4的
multicollinearity。
这样只好来请教，倒底在删除存在multicollinearity的var的时候，应该遵循怎么个程
序？才能尽可能保证将来留下的变量和最优解尽可能接近

A*****n
发帖数: 243

试试PCA或者PLS？

【在 f******h 的大作中提到】

: 上百个independent var肯定是有很强的multicollinearity的，于是就根据proc reg的
: VI，从最大的VI开始剔除，一次一个，终于剩下的所有VI都比4小了。可是发现剩下的
: independent var都跟dependent var的correlation很小，corr大的全都被剔除掉了，
: 郁闷啊。
: 这样的model明显好不了，事实也证明确实这样。随便拿了一个0.9 corr的var回来，简
: 单stepwise回归出来的model的R^2就提高了很多，而且也没有VI大于4的
: multicollinearity。
: 这样只好来请教，倒底在删除存在multicollinearity的var的时候，应该遵循怎么个程
: 序？才能尽可能保证将来留下的变量和最优解尽可能接近

f******h
发帖数: 46

谢谢建议，我也考虑过fca或者pls。但是如果现在就需要用ols选取var subset的方法
，应该怎么搞？

【在 A*****n 的大作中提到】

: 试试PCA或者PLS？

D******n
发帖数: 2836

stepwise 可以你就stepwsie不就行了。

【在 f******h 的大作中提到】

s*******e
发帖数: 1385

是不是可以直接根据BIC做model selection，BIC对增加parameter的penalty最大，增
加Multicollinearity 的predictor对SSE的影响比较小。用BIC是不是会剔除
collinearity的variables。
我也不是很懂，如果觉得没有道理，请不要见怪。

【在 f******h 的大作中提到】

s*r
发帖数: 2757

high r^2 may be overfitting
"随便拿了一个0.9 corr的var" is confusing. correlation with the outcome
variable or the other predictor.
i remember the standard procedure should be first forward selection, then
back elimination.

【在 f******h 的大作中提到】

g********r
发帖数: 8017

lasso和它的n多变种。

【在 f******h 的大作中提到】

: 谢谢建议，我也考虑过fca或者pls。但是如果现在就需要用ols选取var subset的方法
: ，应该怎么搞？

n*****s
发帖数: 10232

我感觉lasso总是选比stepwise少的多的var（我用的proc glmselect里面的selection=
lasso），有时候会怀疑不可靠。。。实际很多时候在linear regression中，lasso的R
^2也确实比stepwise小（在stepwise结果可以接受的情况下）

【在 g********r 的大作中提到】

: lasso和它的n多变种。

n*****s
发帖数: 10232

这个先forward然后再backward，跟stepwise有什么本质区别？理论上怎么解释的
看过sas-l的一些帖子，简单的对付multicollinearity就用proc reg的collin option
，不过在分析output的时候用vif还是condition index有些争论。vif比较简单，ci貌
似提供的信息更多一些（可以分析出具体每个变量的collinearity都是由其它哪些变量
贡献的）。不过具体应该如何应用这些信息确定每一步保留/去掉哪个变量，还是没有
个清晰明确的判别方法。。。

【在 s*r 的大作中提到】

: high r^2 may be overfitting
: "随便拿了一个0.9 corr的var" is confusing. correlation with the outcome
: variable or the other predictor.
: i remember the standard procedure should be first forward selection, then
: back elimination.

d******e
发帖数: 7844

你选的variable多R^2当然大，这种明显overfitting的东西怎么可能拿来做model
selection。
要比肯定比Prediction Error啊。
你做做Cross Validation，一般来说，这种几百个variable的情况，Lasso肯定比
Stepwise强。

selection=
的R

【在 n*****s 的大作中提到】

: 我感觉lasso总是选比stepwise少的多的var（我用的proc glmselect里面的selection=
: lasso），有时候会怀疑不可靠。。。实际很多时候在linear regression中，lasso的R
: ^2也确实比stepwise小（在stepwise结果可以接受的情况下）

相关主题
● 请教一个multi colinearity的问题	● 新手请教logistic regression
● 有80个候选Predictors,怎么从中选<10个	● One interview question:) Looking for help
● logistic, overfit了怎么办？	● model里有multicollinearity，该如何处理呢？
进入Statistics版参与讨论

n*****s
发帖数: 10232

variable多R^2当然小？没有直接联系吧，R^2只表示response的variance有多少被解释
，要看也看variable选择的质量。。。

【在 d******e 的大作中提到】

: 你选的variable多R^2当然大，这种明显overfitting的东西怎么可能拿来做model
: selection。
: 要比肯定比Prediction Error啊。
: 你做做Cross Validation，一般来说，这种几百个variable的情况，Lasso肯定比
: Stepwise强。
:
: selection=
: 的R

d******e
发帖数: 7844

你难道没学过regression？
R^2肯定是variable越多越大。

【在 n*****s 的大作中提到】

: variable多R^2当然小？没有直接联系吧，R^2只表示response的variance有多少被解释
: ，要看也看variable选择的质量。。。

n*****s
发帖数: 10232

-__-//。。。你自己开始敲错了说越多越小，所以我才confused的。你咋改完自己原帖
又回头来说我
跳过这个，虽然stepwise我发现经常比lasso选择的variable数量多，但是并不一定表
明就是overfit吧。
这样obs少但是variables多的情况，我会用cross validation，不过在这之前，还是应
该clean up你的data base，尽可能先消除multi-col吧。我说的要点其实就是处理
multi-col阶段（还没到variable selection和cross validation），如何根据vif或者
condition index来确定每次去掉/保留哪个variable

【在 d******e 的大作中提到】

: 你难道没学过regression？
: R^2肯定是variable越多越大。

g********r
发帖数: 8017

lasso是有bias的。不知道你说的proc是不是纠正了bias，否则R2不可靠。另外lasso有
N多变种如adaptive lasso之类的。结果也不完全一样。

【在 n*****s 的大作中提到】

: -__-//。。。你自己开始敲错了说越多越小，所以我才confused的。你咋改完自己原帖
: 又回头来说我
: 跳过这个，虽然stepwise我发现经常比lasso选择的variable数量多，但是并不一定表
: 明就是overfit吧。
: 这样obs少但是variables多的情况，我会用cross validation，不过在这之前，还是应
: 该clean up你的data base，尽可能先消除multi-col吧。我说的要点其实就是处理
: multi-col阶段（还没到variable selection和cross validation），如何根据vif或者
: condition index来确定每次去掉/保留哪个variable

s*******y
发帖数: 2977

Rsqure大不一定是overfitting，跟你的number of variables and sample size都有关
系。建议看一看Frank Harrell的 regression modeling strategies。
lz的variable很多，建议fit model之前先检查colinearity，对于highly correlated
的variable，keep一个（比如说univariate fitting里rsquare最好的那个），然后再
用stepwise或penalized variable selection.不过2007年好像有个加拿大人写的一篇
文章做了很详细的simulation，比较了backward selection加或不加bootstrapping都
不会给出很好的结果，嘿嘿，eye-dropping conclusions。

f******h
发帖数: 46

当然也不是这么简单。比如我一股脑把所有上百个predictor都扔进去给sas自己用
stepwise选，那出来的model必定是存在很大的multicollinearity的overfitted的
model。
我说的＂随便拿了一个0.9 corr的var＂是指和response的corr有0.9。我都去掉
multicollinearity很大的predictor以后，又从去掉的那些里面随便拿了一个回来，然
后stepwise出来的model反而更好（R^2更大，而选择的predictor数量不多或者更少，
同时被选中的predictor之间也没有过大的multicollinearity）。这就让我感觉前面去
除multicollinearity的步骤是存在很大问题的。。。

【在 D******n 的大作中提到】

: stepwise 可以你就stepwsie不就行了。

f******h
发帖数: 46

确实multicollinearity的predictor对R^2的增长比较小，不过BIC是整个model的一个
参数，在我通过multicollinearity保留或者去除变量的时候，BIC并不能给我针对到变
量的信息，还不如TOL和VIF

【在 s*******e 的大作中提到】

: 是不是可以直接根据BIC做model selection，BIC对增加parameter的penalty最大，增
: 加Multicollinearity 的predictor对SSE的影响比较小。用BIC是不是会剔除
: collinearity的variables。
: 我也不是很懂，如果觉得没有道理，请不要见怪。

f******h
发帖数: 46

谢谢，刚刚上面回了一贴，说处理过multicollinearity以后的变量们发现并不是最好
的pool。。。我觉得是我multicollinearity处理方式不对头。我是在每一步去掉VIF最
大的那个变量，我也注意到这样的方式，很容易导致把那些和dependent variable的
correlation最大的predictor都去掉了。。。很ft
我想试试你的方法，在每组corr很大的变量中保留那个univariate R^2最大的。但是这
里也有问题：１）因为变量非常多，这种大corr的组合并不是mutually exclusive的，
就是说组和组的不同变量之间也很难避免一些corr很大，当然，这个可以考虑用
cluster analysis来交给sas解决；２）另一个问题是每组保留一个可靠吗？还是说在
经验上这样的做法是一种惯例？

correlated

【在 s*******y 的大作中提到】

: Rsqure大不一定是overfitting，跟你的number of variables and sample size都有关
: 系。建议看一看Frank Harrell的 regression modeling strategies。
: lz的variable很多，建议fit model之前先检查colinearity，对于highly correlated
: 的variable，keep一个（比如说univariate fitting里rsquare最好的那个），然后再
: 用stepwise或penalized variable selection.不过2007年好像有个加拿大人写的一篇
: 文章做了很详细的simulation，比较了backward selection加或不加bootstrapping都
: 不会给出很好的结果，嘿嘿，eye-dropping conclusions。

D******n
发帖数: 2836

一个model好不好得CV一下吧，你好像自己给自己加了很多assumptions，又不想multic
ollinearity，又想R2高。

【在 f******h 的大作中提到】

: 当然也不是这么简单。比如我一股脑把所有上百个predictor都扔进去给sas自己用
: stepwise选，那出来的model必定是存在很大的multicollinearity的overfitted的
: model。
: 我说的＂随便拿了一个0.9 corr的var＂是指和response的corr有0.9。我都去掉
: multicollinearity很大的predictor以后，又从去掉的那些里面随便拿了一个回来，然
: 后stepwise出来的model反而更好（R^2更大，而选择的predictor数量不多或者更少，
: 同时被选中的predictor之间也没有过大的multicollinearity）。这就让我感觉前面去
: 除multicollinearity的步骤是存在很大问题的。。。

s*r
发帖数: 2757

in a good model like
y= x1 x2 x3 x4
and you want every x_i to be correlated with y. I would NOT be surprised if
some x_i are correlated more or less. this is an observational study. if you
hate correlation so much, do a controlled experiment.
bic is what you need. you are right bic is for an entire model, and one bic
is not so useful. but the difference between bic2 and bic1 tells you whether
to include x3 :
y = x1 x2 ->bic1
y = x1 x2 x3 ->bic2

相关主题
● logistic regression 问题	● 帮我看看这个logistic regression output包子谢
● 新鲜出炉的google面经！大家帮我看看答的怎样吧！	● Re: 请问multi variate linear regression 选择risk factor 问(转载)
● 关于使用adaptive lasso中weight的问题	● 土人请教stepwise
进入Statistics版参与讨论

s*******y
发帖数: 2977

不知道可靠性怎样。我们可以合作做一个simulatino study哈。

【在 f******h 的大作中提到】

: 谢谢，刚刚上面回了一贴，说处理过multicollinearity以后的变量们发现并不是最好
: 的pool。。。我觉得是我multicollinearity处理方式不对头。我是在每一步去掉VIF最
: 大的那个变量，我也注意到这样的方式，很容易导致把那些和dependent variable的
: correlation最大的predictor都去掉了。。。很ft
: 我想试试你的方法，在每组corr很大的变量中保留那个univariate R^2最大的。但是这
: 里也有问题：１）因为变量非常多，这种大corr的组合并不是mutually exclusive的，
: 就是说组和组的不同变量之间也很难避免一些corr很大，当然，这个可以考虑用
: cluster analysis来交给sas解决；２）另一个问题是每组保留一个可靠吗？还是说在
: 经验上这样的做法是一种惯例？
:

f******h
发帖数: 46

那针对我的具体问题，请教你会如何screen out multicollinearity 得到variable的subset？

multic

【在 D******n 的大作中提到】

: 一个model好不好得CV一下吧，你好像自己给自己加了很多assumptions，又不想multic
: ollinearity，又想R2高。

f******h
发帖数: 46

这是个ad hoc(?)的建模，并不适合controlled experiment ：）
你说的很对，如果model里面的predictor都和response很相关，那很可以理解他们也非
常可能存在很大的multicollinearity。不过是不是和response相关度大并不是我最终
追求的，我追求的只是，完成清理multicollinearity以后得到的variable subset，在
接下来的variable selection中给我尽可能接近最优解的model
（也许像前面人说的，不能通过R^2来判断这个model优劣，而需要切实validate
model的predictive performance）
而我现在怀疑的是，我在处理multicolinearity的过程中，使用的方法是不是得当。或
者说有没有比较被接受认同的常用筛选方法。
希望我表达清楚了疑问点。。。

if
you
bic
whether

【在 s*r 的大作中提到】

: in a good model like
: y= x1 x2 x3 x4
: and you want every x_i to be correlated with y. I would NOT be surprised if
: some x_i are correlated more or less. this is an observational study. if you
: hate correlation so much, do a controlled experiment.
: bic is what you need. you are right bic is for an entire model, and one bic
: is not so useful. but the difference between bic2 and bic1 tells you whether
: to include x3 :
: y = x1 x2 ->bic1
: y = x1 x2 x3 ->bic2

f******h
发帖数: 46

那在SAS上应该如何正确使用lasso？

【在 g********r 的大作中提到】

: lasso是有bias的。不知道你说的proc是不是纠正了bias，否则R2不可靠。另外lasso有
: N多变种如adaptive lasso之类的。结果也不完全一样。

l*********s
发帖数: 5409

if some variables are highly correlated with the response, why not use them
to build a parsimonious model?

n*****s
发帖数: 10232

在想对于parsimonious model来说，几乎某一两个predictor是dominator整个model的
，如果这样的predictor出现一些波动，对model的影响就很大。

them

【在 l*********s 的大作中提到】

: if some variables are highly correlated with the response, why not use them
: to build a parsimonious model?

(共1页)

进入Statistics版参与讨论

相关主题
● Re: 请问multi variate linear regression 选择risk factor 问(转载)	● logistic regression结果释疑，解读
● 土人请教stepwise	● 请教一个multi colinearity的问题
● 问题：用VIF做feature selection	● 有80个候选Predictors,怎么从中选<10个
● miltiple linear regression(含interaction term) 问题	● logistic, overfit了怎么办？
● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧	● 新手请教logistic regression
● 请问：想fit gamma 并同时用lasso的方法做variable selection	● One interview question:) Looking for help
● ##面试过了，请教问题##	● model里有multicollinearity，该如何处理呢？
● model的predictors之间有multi-colinearity怎么办？	● logistic regression 问题

相关话题的讨论汇总
话题: model话题: predictor话题: variable话题: stepwise

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天