d*****y 发帖数: 1365 | 1 现在有一套数据
A: u_1,u_2,…u_N
A1: v_1,v_2,...v_M
A2: v_1,v_2,...v_M
B: u_1,u_2,…u_N
B1: v_1,v_2,...v_M
B2: v_1,v_2,...v_M
B3: v_1,v_2,...v_M
B4: v_1,v_2,...v_M
C: u_1,u_2,…u_N
C1: v_1,v_2,...v_M
C2: v_1,v_2,...v_M
C3: v_1,v_2,...v_M
.
.
.
说明一下,A,B,C...是sample,每个sample有自己的features: u_1,u_2,...u_N
然后每个sample e.g. A,有一些关联人,A1,A2...这些关联人也有自己的feature:
v_1,v_2,...v_M.但是问题是对于每个sample,关联人的数目是不确定的(从1到几十
都有可能),比如A有2个关联人,B有4个关联人.
现在的任务就是要把A,B,C这些分类,training set里面A,B,C是有class label的.
现在遇到的主要困难是,如果把每个sample加上关联人作为一个feature的话,这样每
个sample的feature vector的维度是不一样的,很多现有的算法用不上.但是如果
简单的从关联人里面提取一些统计特征的话作出一个structurered data,又担心扔掉
很多有用的信息,而且对于一两个关联人的sample,统计特征感觉也不可靠.
请版上大牛们指点,或者给我一些paper的建议.多谢了!
| w********t 发帖数: 7 | 2 菜鸟抛砖引玉:
对每个关联人做PCA先,然后选取相同数量的critical components,再以此作为A,B,C
的feature?这样就有相同数量的feature了,再做下一步的分析建模 |
|