f****7 发帖数: 398 | 1 请教大家一个关于stepwise programming的问题,多谢大家宝贵的时间:
有一个dataset含有101个变量,现在希望依次找出前100个变量中哪些和最后一个变量
的有相关关系。解决的步骤是
1.找出correlation最高的var1,将var1与前100个变量中剩下99个variable分别相加,
得到一组新的variables
2.从新的99个变量中找出correlation最高的那个变量var2, 此var2实际是原dataset中
的var1+var2,并将var1,var2与原100个变量中剩下98个变量相加,得到一组新的
variables
3.从新的98个变量中找出correlation最高的变量var3=(var1+var2+var3)
4.重复以上步骤,直到每次运算中最高的correlation与前一次相比不再增加。
我对此类编程没有经验,现在还徘徊在到底是用sas还是r来处理的阶段,希望大家多多
指教,不甚感激。 |
l***a 发帖数: 12410 | 2 this algorithm sounds interesting... what's it called?
【在 f****7 的大作中提到】 : 请教大家一个关于stepwise programming的问题,多谢大家宝贵的时间: : 有一个dataset含有101个变量,现在希望依次找出前100个变量中哪些和最后一个变量 : 的有相关关系。解决的步骤是 : 1.找出correlation最高的var1,将var1与前100个变量中剩下99个variable分别相加, : 得到一组新的variables : 2.从新的99个变量中找出correlation最高的那个变量var2, 此var2实际是原dataset中 : 的var1+var2,并将var1,var2与原100个变量中剩下98个变量相加,得到一组新的 : variables : 3.从新的98个变量中找出correlation最高的变量var3=(var1+var2+var3) : 4.重复以上步骤,直到每次运算中最高的correlation与前一次相比不再增加。
|
f****7 发帖数: 398 | 3 stepwise selection
do you have any ideas about this? thanks!
【在 l***a 的大作中提到】 : this algorithm sounds interesting... what's it called?
|
m****r 发帖数: 237 | 4 似乎SAS里面proc reg里的stepwise selection of r.v. 的想法和这个差不多吧。。你
可以去找找看关于这方面的东西。。。实在不行去问SAS group。。
【在 f****7 的大作中提到】 : 请教大家一个关于stepwise programming的问题,多谢大家宝贵的时间: : 有一个dataset含有101个变量,现在希望依次找出前100个变量中哪些和最后一个变量 : 的有相关关系。解决的步骤是 : 1.找出correlation最高的var1,将var1与前100个变量中剩下99个variable分别相加, : 得到一组新的variables : 2.从新的99个变量中找出correlation最高的那个变量var2, 此var2实际是原dataset中 : 的var1+var2,并将var1,var2与原100个变量中剩下98个变量相加,得到一组新的 : variables : 3.从新的98个变量中找出correlation最高的变量var3=(var1+var2+var3) : 4.重复以上步骤,直到每次运算中最高的correlation与前一次相比不再增加。
|
f****7 发帖数: 398 | 5 谢谢 minner! 刚才看了Proc reg的东西,感觉很有帮助。有一个问题是sas proc reg
对predictor的选择是基于R-square的基础上,我可能比较偏向基于correlation的基础
上,不知道有没有什么方法可以将两者联系起来?
【在 m****r 的大作中提到】 : 似乎SAS里面proc reg里的stepwise selection of r.v. 的想法和这个差不多吧。。你 : 可以去找找看关于这方面的东西。。。实在不行去问SAS group。。
|
s*r 发帖数: 2757 | 6 proc reg won't do the addition that you have described.
you did not realize that libra was a little sarcastic ?
reg
【在 f****7 的大作中提到】 : 谢谢 minner! 刚才看了Proc reg的东西,感觉很有帮助。有一个问题是sas proc reg : 对predictor的选择是基于R-square的基础上,我可能比较偏向基于correlation的基础 : 上,不知道有没有什么方法可以将两者联系起来?
|
f****7 发帖数: 398 | 7 Not really, but I don't care that much either. If someone can help, I really
appreciate it. If not, that's ok. |
l***a 发帖数: 12410 | 8 actually I was not being sarcastic...
【在 s*r 的大作中提到】 : proc reg won't do the addition that you have described. : you did not realize that libra was a little sarcastic ? : : reg
|
b******1 发帖数: 367 | 9 root of R is correlation |
f****7 发帖数: 398 | 10 Thanks,berry321, but it seems like not being able to use R itself as the
statistic for stepwise selection.
【在 b******1 的大作中提到】 : root of R is correlation
|
|
|
f****7 发帖数: 398 | 11 That is what I thought. And thank you to re my post.
【在 l***a 的大作中提到】 : actually I was not being sarcastic...
|
D******n 发帖数: 2836 | 12 Totally dont know what u wanna do with this algorithm, what is the purpose?
Whats the rationale behind this?
But anyway, u can use R to do this easily, definitely not SAS.
【在 f****7 的大作中提到】 : 请教大家一个关于stepwise programming的问题,多谢大家宝贵的时间: : 有一个dataset含有101个变量,现在希望依次找出前100个变量中哪些和最后一个变量 : 的有相关关系。解决的步骤是 : 1.找出correlation最高的var1,将var1与前100个变量中剩下99个variable分别相加, : 得到一组新的variables : 2.从新的99个变量中找出correlation最高的那个变量var2, 此var2实际是原dataset中 : 的var1+var2,并将var1,var2与原100个变量中剩下98个变量相加,得到一组新的 : variables : 3.从新的98个变量中找出correlation最高的变量var3=(var1+var2+var3) : 4.重复以上步骤,直到每次运算中最高的correlation与前一次相比不再增加。
|
f****7 发帖数: 398 | 13 Sorry if I confused you. In the end, I want to see a group of variables (
ideally <20), which can represent the correlations between first 100
variables and the last variable best.
?
【在 D******n 的大作中提到】 : Totally dont know what u wanna do with this algorithm, what is the purpose? : Whats the rationale behind this? : But anyway, u can use R to do this easily, definitely not SAS.
|
c**d 发帖数: 104 | 14 如果你不是很熟悉R的话, SAS proc glmselect 是一个很好用的。
【在 f****7 的大作中提到】 : 请教大家一个关于stepwise programming的问题,多谢大家宝贵的时间: : 有一个dataset含有101个变量,现在希望依次找出前100个变量中哪些和最后一个变量 : 的有相关关系。解决的步骤是 : 1.找出correlation最高的var1,将var1与前100个变量中剩下99个variable分别相加, : 得到一组新的variables : 2.从新的99个变量中找出correlation最高的那个变量var2, 此var2实际是原dataset中 : 的var1+var2,并将var1,var2与原100个变量中剩下98个变量相加,得到一组新的 : variables : 3.从新的98个变量中找出correlation最高的变量var3=(var1+var2+var3) : 4.重复以上步骤,直到每次运算中最高的correlation与前一次相比不再增加。
|
g********r 发帖数: 8017 | 15 有这么哥算法么?远不如stepwise regression make sense 啊。现在stepwise也早过时了。不做个lasso都不好意思见
人。你怎么还搞这个?
【在 f****7 的大作中提到】 : Sorry if I confused you. In the end, I want to see a group of variables ( : ideally <20), which can represent the correlations between first 100 : variables and the last variable best. : : ?
|
D******n 发帖数: 2836 | 16 why summation?
Sorry if I confused you. In the end, I want to see a group of variables (
ideally <20), which can represent the correlations between first 100
variables and the last variable best.
?
【在 f****7 的大作中提到】 : Sorry if I confused you. In the end, I want to see a group of variables ( : ideally <20), which can represent the correlations between first 100 : variables and the last variable best. : : ?
|
f****7 发帖数: 398 | 17 学习了!非常感谢!
【在 c**d 的大作中提到】 : 如果你不是很熟悉R的话, SAS proc glmselect 是一个很好用的。
|
f****7 发帖数: 398 | 18 这个算法其实是因为数据的缘故被要求的,不希望利用regression model 去选
predictors. 比较头疼,自己经验太少,碰
到这样的东西总是解决不好。
过时了。不做个lasso都不好意思见
【在 g********r 的大作中提到】 : 有这么哥算法么?远不如stepwise regression make sense 啊。现在stepwise也早过时了。不做个lasso都不好意思见 : 人。你怎么还搞这个?
|
o****o 发帖数: 8077 | 19 看起来你是想筛选主因素,为啥不用已经广泛接受的方法呢?比如lasso?
【在 f****7 的大作中提到】 : 这个算法其实是因为数据的缘故被要求的,不希望利用regression model 去选 : predictors. 比较头疼,自己经验太少,碰 : 到这样的东西总是解决不好。 : : 过时了。不做个lasso都不好意思见
|
f****7 发帖数: 398 | 20 Summation was used to calculate "conditional" correlations based on the
selected variables. Without it, we
cannot tell when the correlations stop increasing.
【在 D******n 的大作中提到】 : why summation? : : Sorry if I confused you. In the end, I want to see a group of variables ( : ideally <20), which can represent the correlations between first 100 : variables and the last variable best. : ?
|
|
|
g********r 发帖数: 8017 | 21 这个summation比用residual有什么优势?
劣势很明显。比如y=x1-x2,
【在 f****7 的大作中提到】 : Summation was used to calculate "conditional" correlations based on the : selected variables. Without it, we : cannot tell when the correlations stop increasing.
|
l***a 发帖数: 12410 | 22 how does sas do lasso?
【在 o****o 的大作中提到】 : 看起来你是想筛选主因素,为啥不用已经广泛接受的方法呢?比如lasso?
|
s*r 发帖数: 2757 | 23 i tried to say something obvious
when you see a '+' in model statement, it does not always mean mathematical
addition
【在 f****7 的大作中提到】 : Summation was used to calculate "conditional" correlations based on the : selected variables. Without it, we : cannot tell when the correlations stop increasing.
|
s*r 发帖数: 2757 | 24 lasso has been the main method
i am so outdated
do you have some introductory document
【在 o****o 的大作中提到】 : 看起来你是想筛选主因素,为啥不用已经广泛接受的方法呢?比如lasso?
|
l***a 发帖数: 12410 | 25 co-
【在 s*r 的大作中提到】 : lasso has been the main method : i am so outdated : do you have some introductory document
|
o****o 发帖数: 8077 | 26 tweak PROC GLMSELECT
you can also build your own SAS implementation.
【在 s*r 的大作中提到】 : lasso has been the main method : i am so outdated : do you have some introductory document
|
f****7 发帖数: 398 | 27 That's right, thanks for pointing out.
mathematical
【在 s*r 的大作中提到】 : i tried to say something obvious : when you see a '+' in model statement, it does not always mean mathematical : addition
|