i**********n 发帖数: 196 | 1 有A与B两个集合,每个集合各含有million个data point,每个data point由thousand
个feature描述,不过有的feature是missing的或者残缺不全的。已知有一个方程f(a,b
)可以判断两个data point a和b是否equivalent,问题是如何最efficient的找出A与B
中的所有equivalent的data point对。
跪求答案。 | t*****3 发帖数: 112 | 2 唉,我要是被问到这个问题多好啊。如果所有feature的值的范围可以标准化到一个范
围,比如1到5之间,可以用matrix factorization为每个data point和每个feature各
计算一个vector出来,然后就可以估计每个data point的missing features的值,然后
就可以用f(a,b)来计算equivalent了。注意matrix factorization那一步是可以做到
linear的,参见netflix prize的winning team的成果。
thousand
,b
B
【在 i**********n 的大作中提到】 : 有A与B两个集合,每个集合各含有million个data point,每个data point由thousand : 个feature描述,不过有的feature是missing的或者残缺不全的。已知有一个方程f(a,b : )可以判断两个data point a和b是否equivalent,问题是如何最efficient的找出A与B : 中的所有equivalent的data point对。 : 跪求答案。
| i**********n 发帖数: 196 | |
|