由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - Principal Components Analysis 中 factor 选择的问题
相关主题
找工作总结 [下]请教backward, forward and stepwise在做variable selection时的区别
data science 面试求教做过regression的达人请进下,万分感谢
【大包子】Factor data analysislogistic regression结果释疑,解读
有没有SAS关于 PCA Factor analysis 的书 or网站?model的predictors之间有multi-colinearity怎么办?
请问几个回归的sas code请教:回归方程中自变量的选取。
工作中用到的factor analysis求助:即将遭遇统计的第一个电话面试
抓狂!为啥选出来的predictor都这么差感慨一下,学校的知识在实际工作中好苍白,求教两个困惑我许久的实际问题
logistic, overfit了怎么办?PCA拟合问题
相关话题的讨论汇总
话题: factor话题: pca话题: principal话题: analysis话题: components
进入Statistics版参与讨论
1 (共1页)
T******r
发帖数: 265
1
1) pca中用什么方法来选择应该用几个factor呢?
2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
factor
3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
4) 有没有什么关于pca的教程呢
j*****4
发帖数: 292
2
A user's guide to principle component
pwd: twilightzone
http://ifile.it/q7tj2fr/26330.rar

【在 T******r 的大作中提到】
: 1) pca中用什么方法来选择应该用几个factor呢?
: 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
: factor
: 3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
: 4) 有没有什么关于pca的教程呢

A*****s
发帖数: 13748
3
几个factor取决于你要catch多少variation

【在 T******r 的大作中提到】
: 1) pca中用什么方法来选择应该用几个factor呢?
: 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
: factor
: 3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
: 4) 有没有什么关于pca的教程呢

T******r
发帖数: 265
4
多谢,赶快去读。

【在 j*****4 的大作中提到】
: A user's guide to principle component
: pwd: twilightzone
: http://ifile.it/q7tj2fr/26330.rar

T******r
发帖数: 265
5
我的问题是
1. 我有10,000 explanatory variables 但只有1000 records
2. 我想用pca reduce dimension
3. 然后用factor forecast dependant variable.
4. 我不知道我对这个variation的理解对不对,我想是从大到小选择前几个factors.但
是这样的forecast accuracy 不太好 但如果我用stepwise 选择 factors的话,我觉得
有in-sample overfitting的问题。

【在 A*****s 的大作中提到】
: 几个factor取决于你要catch多少variation
m****k
发帖数: 286
6
推荐使用1norm SVM, 比PCA强得多
LOOCV error很低
o****o
发帖数: 8077
7
变量多余观测的情况可以试试PLS

【在 T******r 的大作中提到】
: 我的问题是
: 1. 我有10,000 explanatory variables 但只有1000 records
: 2. 我想用pca reduce dimension
: 3. 然后用factor forecast dependant variable.
: 4. 我不知道我对这个variation的理解对不对,我想是从大到小选择前几个factors.但
: 是这样的forecast accuracy 不太好 但如果我用stepwise 选择 factors的话,我觉得
: 有in-sample overfitting的问题。

d******e
发帖数: 551
8
个人的理解

看用的几个factor能解释多少variance
如果前面的几个factor都significant就应该用前面几个factor,因为可以解释更多的
variance。但是也不是绝对的,如果前面几个factor不significant,说明不能解释
dependent variable,就不应该用。
做个train-test跟validation的dataset?sample size 小就用bootstrap

【在 T******r 的大作中提到】
: 1) pca中用什么方法来选择应该用几个factor呢?
: 2) 可不可以用pca, 然后再用stepwise 或者其他方法选factor.还是最好用前几个
: factor
: 3) 用pca做forecast.如何避免in-sample overfitting的问题呢?
: 4) 有没有什么关于pca的教程呢

T******r
发帖数: 265
9
非常感谢大家的热情回复。今天我试了试pls (partial least square),但是有点不明
白,希望高手指正。
我用R - pls package试的,问题是有一次
我错误的把dependant variable 加到formula的右边,就是
y ~ y + X (我有>10000 explanatory variables)
我觉得这样的话,我应该得到一个factor能100%解释dependant variable,但是pls的
并没有产生这样一个factor.我把这个和
y ~ X
的结果比较,两次产生的factor很类似。
我的感觉是 y 被 >10000 X 掩盖住了。
以前我用pca的时候,也犯过类似的错误,结果也是这样。对于pca我能"理解"。但是
pls理论上考虑了 dependant 和 independant variables的关系,不应该是这样的吧?
还有我想问一下,如果要在R 试一试 1 norm svm, 我是应该用penalizedSVM吗?
题外话,我看到的1 norm svm的应用多是在categorical variables,不知道

【在 d******e 的大作中提到】
: 个人的理解
:
: 看用的几个factor能解释多少variance
: 如果前面的几个factor都significant就应该用前面几个factor,因为可以解释更多的
: variance。但是也不是绝对的,如果前面几个factor不significant,说明不能解释
: dependent variable,就不应该用。
: 做个train-test跟validation的dataset?sample size 小就用bootstrap

T******r
发帖数: 265
10
自己顶。
A*******r
发帖数: 194
11
variable 多的话用PLS or PCA 搞出来的Covariance块头大不说也不正定吧。
这是typical的情况合用SVM吧。
还有
可不可以用pca, 然后再用stepwise 或者其他方法选factor
PCA出来的factor都independent了还要stepwise干什么?
T******r
发帖数: 265
12
PCA出来的factor都independent了还要stepwise干什么?
我是想选出和dependant variable最相关的factors.我的理解有错吗?
这个independant 指得是orthogonal 吗?
为什么需要正定呢?
还有哪位高手看看我9楼的问题呢?
EA
发帖数: 3965
13
解压之后用什么读呢?这不是pdf文件啊。

【在 j*****4 的大作中提到】
: A user's guide to principle component
: pwd: twilightzone
: http://ifile.it/q7tj2fr/26330.rar

T******r
发帖数: 265
14
djview

【在 EA 的大作中提到】
: 解压之后用什么读呢?这不是pdf文件啊。
1 (共1页)
进入Statistics版参与讨论
相关主题
PCA拟合问题请问几个回归的sas code
如何判断两组数据相关?工作中用到的factor analysis
问一个technical question的回答方法抓狂!为啥选出来的predictor都这么差
Support vector machine的优点是什么logistic, overfit了怎么办?
找工作总结 [下]请教backward, forward and stepwise在做variable selection时的区别
data science 面试求教做过regression的达人请进下,万分感谢
【大包子】Factor data analysislogistic regression结果释疑,解读
有没有SAS关于 PCA Factor analysis 的书 or网站?model的predictors之间有multi-colinearity怎么办?
相关话题的讨论汇总
话题: factor话题: pca话题: principal话题: analysis话题: components