E**********e 发帖数: 1736 | 1 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
一下好像不能用来select significant variables。 谢谢。
欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。 |
e********9 发帖数: 444 | |
h*********d 发帖数: 109 | 3
OK
【在 E**********e 的大作中提到】 : 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression : 背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方 : 法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK : 了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子 : 好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论 : 的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答 : 是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解 : 一下好像不能用来select significant variables。 谢谢。 : 欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。
|
x*****6 发帖数: 13 | 4 感觉纯numerical feature在实际应用里好少,在学校做项目的时候,几乎都是
numerical,就算是categorical的,每个categorial feature的value都比较少,转换
成0/1,也不会过于增大dimensionality。
我基本上在feature selection上,supervised的话,就用mutual information或者
information gain。
Unsupervised learning就有点不知道怎么办了。。。 |
a***g 发帖数: 2761 | 5 你是要问pca 在categorical 上的应用? |
E**********e 发帖数: 1736 | 6 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
一下好像不能用来select significant variables。 谢谢。
欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。 |
e********9 发帖数: 444 | |
x*****6 发帖数: 13 | 8 感觉纯numerical feature在实际应用里好少,在学校做项目的时候,几乎都是
numerical,就算是categorical的,每个categorial feature的value都比较少,转换
成0/1,也不会过于增大dimensionality。
我基本上在feature selection上,supervised的话,就用mutual information或者
information gain。
Unsupervised learning就有点不知道怎么办了。。。 |
a***g 发帖数: 2761 | 9 你是要问pca 在categorical 上的应用? |
k*****n 发帖数: 361 | 10 面试官并没有问你pca能不能用在categorical data上面,但是他说的pca方法用于选
variables是对的,因为pca的用途就是reduce dimension by reduce
multicollinearity variables,其实和stepwise variables selection一个道理 |
s*********h 发帖数: 6288 | 11 不是大牛。我说说我的看法
PCA categorical 肯定没法直接用。
我觉得说PCA选variables的面试官自己也不太清楚吧?
PCA已经改变了所有的变量,不能叫“选”变量了。
减少线性相关的feature是正确的。
传统统计如果重视解释性的话,PCA的结果不好用,虽然可以在某些情况下勉强给
feature定义,感觉并不是通用的方法。
此外可以用information value来选categorical variables
还有random forest。 |
y******e 发帖数: 5906 | 12 PCA就是去相关性的,增大变量之间的距离的
PCA已经改变数据了
按特征值来选features的,最大的特征值对应对第一主成成份,依次往下推。
它选的应该是features不是variables。
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-p |
l******8 发帖数: 1691 | 13 直接上autoencoder啊。
OK
【在 E**********e 的大作中提到】 : 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression : 背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方 : 法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK : 了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子 : 好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论 : 的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答 : 是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解 : 一下好像不能用来select significant variables。 谢谢。 : 欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。
|
a********d 发帖数: 77 | 14 借道问一下,那么NMF相对于PCA有什么好处吗?我知道NMF系数都是非负,但是在实际
使用的时候到底用PCA还是NMF有没有什么经验? |