由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 有没有大牛来classifiy一下 PCA用法吗?
相关主题
PCA 可以用在mixture of continuous 和categorical variables (转载)我现在有一个15个variable的回归模型。 有什么系统性的方法去
请问这样的数据应该用什么样的模型适合。怎么处理categorical variable有很多个level的
pig能做iterative的问题吗?紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!
Project :advertersiment click predictionf.t."我不会编程"
问一个预测模型 不确定能不能用ARIMA...报面筋求实习合租 (转载)
feature selection的方法求教[Road map] From ClickStream to ConsumerInsight
问个feature selection的问题欢迎加入“机器学习实践” 俱乐部
大家对于有很多value的categorical feature都怎么处理?说说浅学ML的感受
相关话题的讨论汇总
话题: pca话题: variables话题: feature话题: ok
进入DataSciences版参与讨论
1 (共1页)
E**********e
发帖数: 1736
1
紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
一下好像不能用来select significant variables。 谢谢。
欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。
e********9
发帖数: 444
2
这里有讨论,也给了几个link
楼主介意给大家总结一下吗?谢谢!:)
http://stats.stackexchange.com/questions/5774/can-principal-com
h*********d
发帖数: 109
3

OK

【在 E**********e 的大作中提到】
: 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
: 背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
: 法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
: 了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
: 好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
: 的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
: 是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
: 一下好像不能用来select significant variables。 谢谢。
: 欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。

x*****6
发帖数: 13
4
感觉纯numerical feature在实际应用里好少,在学校做项目的时候,几乎都是
numerical,就算是categorical的,每个categorial feature的value都比较少,转换
成0/1,也不会过于增大dimensionality。
我基本上在feature selection上,supervised的话,就用mutual information或者
information gain。
Unsupervised learning就有点不知道怎么办了。。。
a***g
发帖数: 2761
5
你是要问pca 在categorical 上的应用?
E**********e
发帖数: 1736
6
紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
一下好像不能用来select significant variables。 谢谢。
欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。
e********9
发帖数: 444
7
这里有讨论,也给了几个link
楼主介意给大家总结一下吗?谢谢!:)
http://stats.stackexchange.com/questions/5774/can-principal-com
x*****6
发帖数: 13
8
感觉纯numerical feature在实际应用里好少,在学校做项目的时候,几乎都是
numerical,就算是categorical的,每个categorial feature的value都比较少,转换
成0/1,也不会过于增大dimensionality。
我基本上在feature selection上,supervised的话,就用mutual information或者
information gain。
Unsupervised learning就有点不知道怎么办了。。。
a***g
发帖数: 2761
9
你是要问pca 在categorical 上的应用?
k*****n
发帖数: 361
10
面试官并没有问你pca能不能用在categorical data上面,但是他说的pca方法用于选
variables是对的,因为pca的用途就是reduce dimension by reduce
multicollinearity variables,其实和stepwise variables selection一个道理
s*********h
发帖数: 6288
11
不是大牛。我说说我的看法
PCA categorical 肯定没法直接用。
我觉得说PCA选variables的面试官自己也不太清楚吧?
PCA已经改变了所有的变量,不能叫“选”变量了。
减少线性相关的feature是正确的。
传统统计如果重视解释性的话,PCA的结果不好用,虽然可以在某些情况下勉强给
feature定义,感觉并不是通用的方法。
此外可以用information value来选categorical variables
还有random forest。
y******e
发帖数: 5906
12
PCA就是去相关性的,增大变量之间的距离的
PCA已经改变数据了
按特征值来选features的,最大的特征值对应对第一主成成份,依次往下推。
它选的应该是features不是variables。
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-p
l******8
发帖数: 1691
13
直接上autoencoder啊。

OK

【在 E**********e 的大作中提到】
: 紧接上面的一个帖子。 问这个问题,主要因为是interview是经常问到在regression
: 背景下,有1000多个variables, 应该怎么办。 面试官期待你回答PCA, lasso or 方
: 法。 univariate screeng 看起来不是他们关心的。 只要你回答出PCA,好像问题就OK
: 了。从来没有提出可不可以用到categorical variables上。 textbook 里用到的例子
: 好像都是continous variables。当然你跟我说PCA主要用了降维,那这个问题没好讨论
: 的。不知经常看到有人贴面经,谈到PCA选variables的。我也问统计系的教授, 回答
: 是negatvie。 不过提到correspondense analysis, 基于contigency table。 我了解
: 一下好像不能用来select significant variables。 谢谢。
: 欢迎大牛点评一下, 或者已经用过pca 在categorical 上的请留步。

a********d
发帖数: 77
14
借道问一下,那么NMF相对于PCA有什么好处吗?我知道NMF系数都是非负,但是在实际
使用的时候到底用PCA还是NMF有没有什么经验?
1 (共1页)
进入DataSciences版参与讨论
相关主题
说说浅学ML的感受问一个预测模型 不确定能不能用ARIMA...
[Data Science Project Case] Generate Categories for Productfeature selection的方法求教
借版面问个machine learning的问题问个feature selection的问题
[Data Science Project Case] Topic Learning大家对于有很多value的categorical feature都怎么处理?
PCA 可以用在mixture of continuous 和categorical variables (转载)我现在有一个15个variable的回归模型。 有什么系统性的方法去
请问这样的数据应该用什么样的模型适合。怎么处理categorical variable有很多个level的
pig能做iterative的问题吗?紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!
Project :advertersiment click predictionf.t."我不会编程"
相关话题的讨论汇总
话题: pca话题: variables话题: feature话题: ok