T******r 发帖数: 265 | 1 1) pca中用什么方法来选择应该用几个factor呢?
2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
factor
3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
4) 有没有什么关于pca的教程呢 |
j*****4 发帖数: 292 | 2 A user's guide to principle component
pwd: twilightzone
http://ifile.it/q7tj2fr/26330.rar
【在 T******r 的大作中提到】 : 1) pca中用什么方法来选择应该用几个factor呢? : 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个 : factor : 3) 用pca做forecast.如何避免in-sample overfitting的问题呢? : 4) 有没有什么关于pca的教程呢
|
A*****s 发帖数: 13748 | 3 几个factor取决于你要catch多少variation
【在 T******r 的大作中提到】 : 1) pca中用什么方法来选择应该用几个factor呢? : 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个 : factor : 3) 用pca做forecast.如何避免in-sample overfitting的问题呢? : 4) 有没有什么关于pca的教程呢
|
T******r 发帖数: 265 | 4 多谢,赶快去读。
【在 j*****4 的大作中提到】 : A user's guide to principle component : pwd: twilightzone : http://ifile.it/q7tj2fr/26330.rar
|
T******r 发帖数: 265 | 5 我的问题是
1. 我有10,000 explanatory variables 但只有1000 records
2. 我想用pca reduce dimension
3. 然后用factor forecast dependant variable.
4. 我不知道我对这个variation的理解对不对,我想是从大到小选择前几个factors.但
是这样的forecast accuracy 不太好 但如果我用stepwise 选择 factors的话,我觉得
有in-sample overfitting的问题。
【在 A*****s 的大作中提到】 : 几个factor取决于你要catch多少variation
|
m****k 发帖数: 286 | 6 推荐使用1norm SVM, 比PCA强得多
LOOCV error很低 |
o****o 发帖数: 8077 | 7 变量多余观测的情况可以试试PLS
【在 T******r 的大作中提到】 : 我的问题是 : 1. 我有10,000 explanatory variables 但只有1000 records : 2. 我想用pca reduce dimension : 3. 然后用factor forecast dependant variable. : 4. 我不知道我对这个variation的理解对不对,我想是从大到小选择前几个factors.但 : 是这样的forecast accuracy 不太好 但如果我用stepwise 选择 factors的话,我觉得 : 有in-sample overfitting的问题。
|
d******e 发帖数: 551 | 8 个人的理解
看用的几个factor能解释多少variance
如果前面的几个factor都significant就应该用前面几个factor,因为可以解释更多的
variance。但是也不是绝对的,如果前面几个factor不significant,说明不能解释
dependent variable,就不应该用。
做个train-test跟validation的dataset?sample size 小就用bootstrap
【在 T******r 的大作中提到】 : 1) pca中用什么方法来选择应该用几个factor呢? : 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个 : factor : 3) 用pca做forecast.如何避免in-sample overfitting的问题呢? : 4) 有没有什么关于pca的教程呢
|
T******r 发帖数: 265 | 9 非常感谢大家的热情回复。今天我试了试pls (partial least square),但是有点不明
白,希望高手指正。
我用R - pls package试的,问题是有一次
我错误的把dependant variable 加到formula的右边,就是
y ~ y + X (我有>10000 explanatory variables)
我觉得这样的话,我应该得到一个factor能100%解释dependant variable,但是pls的
并没有产生这样一个factor.我把这个和
y ~ X
的结果比较,两次产生的factor很类似。
我的感觉是 y 被 >10000 X 掩盖住了。
以前我用pca的时候,也犯过类似的错误,结果也是这样。对于pca我能"理解"。但是
pls理论上考虑了 dependant 和 independant variables的关系,不应该是这样的吧?
还有我想问一下,如果要在R 试一试 1 norm svm, 我是应该用penalizedSVM吗?
题外话,我看到的1 norm svm的应用多是在categorical variables,不知道
【在 d******e 的大作中提到】 : 个人的理解 : : 看用的几个factor能解释多少variance : 如果前面的几个factor都significant就应该用前面几个factor,因为可以解释更多的 : variance。但是也不是绝对的,如果前面几个factor不significant,说明不能解释 : dependent variable,就不应该用。 : 做个train-test跟validation的dataset?sample size 小就用bootstrap
|
T******r 发帖数: 265 | |
A*******r 发帖数: 194 | 11 variable 多的话用PLS or PCA 搞出来的Covariance块头大不说也不正定吧。
这是typical的情况合用SVM吧。
还有
可不可以用pca, 然后再用stepwise 或者其他方法选factor
PCA出来的factor都independent了还要stepwise干什么? |
T******r 发帖数: 265 | 12 PCA出来的factor都independent了还要stepwise干什么?
我是想选出和dependant variable最相关的factors.我的理解有错吗?
这个independant 指得是orthogonal 吗?
为什么需要正定呢?
还有哪位高手看看我9楼的问题呢? |
EA 发帖数: 3965 | 13 解压之后用什么读呢?这不是pdf文件啊。
【在 j*****4 的大作中提到】 : A user's guide to principle component : pwd: twilightzone : http://ifile.it/q7tj2fr/26330.rar
|
T******r 发帖数: 265 | 14 djview
【在 EA 的大作中提到】 : 解压之后用什么读呢?这不是pdf文件啊。
|