由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 这样的数据怎么处理
相关主题
[Data Science Project Case] Data Monitoring求助: 一个用Hive提取feature的问题
大家对于有很多value的categorical feature都怎么处理?pig能做iterative的问题吗?
datascientist几个基本问题How to prepare for the DS interview?
PCA 可以用在mixture of continuous 和categorical variables (转载)神经网络原理这门课对统计重要么 (转载)
用R做review 的summary问一个预测模型 不确定能不能用ARIMA...
贝叶斯进行点估计的时候 先验概率怎么选择请问这样的数据应该用什么样的模型适合。
[经验帖] 我是如何当上DS的求助 信息提取 (转载)
Project :advertersiment click predictionfeature selection的方法求教
相关话题的讨论汇总
话题: sample话题: 关联话题: 联人话题: feature话题: a1
进入DataSciences版参与讨论
1 (共1页)
d*****y
发帖数: 1365
1
现在有一套数据
A: u_1,u_2,…u_N
A1: v_1,v_2,...v_M
A2: v_1,v_2,...v_M
B: u_1,u_2,…u_N
B1: v_1,v_2,...v_M
B2: v_1,v_2,...v_M
B3: v_1,v_2,...v_M
B4: v_1,v_2,...v_M
C: u_1,u_2,…u_N
C1: v_1,v_2,...v_M
C2: v_1,v_2,...v_M
C3: v_1,v_2,...v_M
.
.
.
说明一下,A,B,C...是sample,每个sample有自己的features: u_1,u_2,...u_N
然后每个sample e.g. A,有一些关联人,A1,A2...这些关联人也有自己的feature:
v_1,v_2,...v_M.但是问题是对于每个sample,关联人的数目是不确定的(从1到几十
都有可能),比如A有2个关联人,B有4个关联人.
现在的任务就是要把A,B,C这些分类,training set里面A,B,C是有class label的.
现在遇到的主要困难是,如果把每个sample加上关联人作为一个feature的话,这样每
个sample的feature vector的维度是不一样的,很多现有的算法用不上.但是如果
简单的从关联人里面提取一些统计特征的话作出一个structurered data,又担心扔掉
很多有用的信息,而且对于一两个关联人的sample,统计特征感觉也不可靠.
请版上大牛们指点,或者给我一些paper的建议.多谢了!
w********t
发帖数: 7
2
菜鸟抛砖引玉:
对每个关联人做PCA先,然后选取相同数量的critical components,再以此作为A,B,C
的feature?这样就有相同数量的feature了,再做下一步的分析建模
1 (共1页)
进入DataSciences版参与讨论
相关主题
feature selection的方法求教用R做review 的summary
机器学习日报一周回顾 2015-01-24贝叶斯进行点估计的时候 先验概率怎么选择
问个feature selection的问题[经验帖] 我是如何当上DS的
有没有大牛来classifiy一下 PCA用法吗?Project :advertersiment click prediction
[Data Science Project Case] Data Monitoring求助: 一个用Hive提取feature的问题
大家对于有很多value的categorical feature都怎么处理?pig能做iterative的问题吗?
datascientist几个基本问题How to prepare for the DS interview?
PCA 可以用在mixture of continuous 和categorical variables (转载)神经网络原理这门课对统计重要么 (转载)
相关话题的讨论汇总
话题: sample话题: 关联话题: 联人话题: feature话题: a1