这样的数据怎么处理 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 这样的数据怎么处理

相关主题
● [Data Science Project Case] Data Monitoring	● 求助：一个用Hive提取feature的问题
● 大家对于有很多value的categorical feature都怎么处理？	● pig能做iterative的问题吗?
● datascientist几个基本问题	● How to prepare for the DS interview?
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 神经网络原理这门课对统计重要么 (转载)
● 用R做review 的summary	● 问一个预测模型不确定能不能用ARIMA...
● 贝叶斯进行点估计的时候先验概率怎么选择	● 请问这样的数据应该用什么样的模型适合。
● [经验帖] 我是如何当上DS的	● 求助信息提取 (转载)
● Project :advertersiment click prediction	● feature selection的方法求教

相关话题的讨论汇总
话题: sample话题: 关联话题: 联人话题: feature话题: a1

进入DataSciences版参与讨论

(共1页)

d*****y
发帖数: 1365

现在有一套数据
A: u_1,u_2,…u_N
A1: v_1,v_2,...v_M
A2: v_1,v_2,...v_M
B: u_1,u_2,…u_N
B1: v_1,v_2,...v_M
B2: v_1,v_2,...v_M
B3: v_1,v_2,...v_M
B4: v_1,v_2,...v_M
C: u_1,u_2,…u_N
C1: v_1,v_2,...v_M
C2: v_1,v_2,...v_M
C3: v_1,v_2,...v_M
.
.
.
说明一下,A,B,C...是sample,每个sample有自己的features: u_1,u_2,...u_N
然后每个sample e.g. A,有一些关联人,A1,A2...这些关联人也有自己的feature:
v_1,v_2,...v_M.但是问题是对于每个sample,关联人的数目是不确定的(从1到几十
都有可能),比如A有2个关联人,B有4个关联人.
现在的任务就是要把A,B,C这些分类,training set里面A,B,C是有class label的.
现在遇到的主要困难是,如果把每个sample加上关联人作为一个feature的话,这样每
个sample的feature vector的维度是不一样的,很多现有的算法用不上.但是如果
简单的从关联人里面提取一些统计特征的话作出一个structurered data,又担心扔掉
很多有用的信息,而且对于一两个关联人的sample,统计特征感觉也不可靠.
请版上大牛们指点,或者给我一些paper的建议.多谢了!

w********t
发帖数: 7

菜鸟抛砖引玉：
对每个关联人做PCA先，然后选取相同数量的critical components，再以此作为A,B,C
的feature？这样就有相同数量的feature了，再做下一步的分析建模

(共1页)

进入DataSciences版参与讨论

相关主题
● feature selection的方法求教	● 用R做review 的summary
● 机器学习日报一周回顾 2015-01-24	● 贝叶斯进行点估计的时候先验概率怎么选择
● 问个feature selection的问题	● [经验帖] 我是如何当上DS的
● 有没有大牛来classifiy一下 PCA用法吗？	● Project :advertersiment click prediction
● [Data Science Project Case] Data Monitoring	● 求助：一个用Hive提取feature的问题
● 大家对于有很多value的categorical feature都怎么处理？	● pig能做iterative的问题吗?
● datascientist几个基本问题	● How to prepare for the DS interview?
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 神经网络原理这门课对统计重要么 (转载)

相关话题的讨论汇总
话题: sample话题: 关联话题: 联人话题: feature话题: a1

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天