p****2 发帖数: 518 | 1 譬如三个department合并了,所有人都合并到了一个大数据库中,而合并前有部分人是
在其中两个或三个department同时兼职的,关于同一个人的各种attributes,可能被分
别列在了不同的department下,而且某些人可能有多个相似的first name或nick name
,但一样的last name,
这些attributes 可能包括first name, last name, email, phone number, ssn,
address 等等 中的部分attributes
也就是说,关于是否为同一个人的智能化判断,需要分别设定weights,请教版上各位
大佬什么样的方式处理比较好?有没现成的相关framework可以使用的?最好是java的
整个数据库 大概几百million左右条目
多谢了! |
d****n 发帖数: 12461 | 2 找一个primary key啊,例如ssn可以做一个key。剩下的按照primary key做排序。
职位没法简单合并。 |
p****2 发帖数: 518 | 3 但是就因为没有primary key,所以需要一个智能化的方案,譬如些machine learning
的方法 |
g*****g 发帖数: 34805 | 4 Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene
provides fuzzy search.
learning
【在 p****2 的大作中提到】 : 但是就因为没有primary key,所以需要一个智能化的方案,譬如些machine learning : 的方法
|
p****2 发帖数: 518 | 5 是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database
要对每一个record用Solr/Elastic Search 进行fuzzy search么?
还是直接用Lucene进行index?
Lucene
【在 g*****g 的大作中提到】 : Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene : provides fuzzy search. : : learning
|
g*****g 发帖数: 34805 | 6 You can get a score on match, obviously you can set a score threshold, use
one data source to search another as one time processing to merge the
records. And each column can be weighted. Lucene is probably more flexible
for you.
【在 p****2 的大作中提到】 : 是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database : 要对每一个record用Solr/Elastic Search 进行fuzzy search么? : 还是直接用Lucene进行index? : : Lucene
|
N********n 发帖数: 8363 | 7
既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新
录一遍呗。数据有备份,做好了试一试就该够了,反正你的SCHEMA不会大改。
【在 p****2 的大作中提到】 : 是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database : 要对每一个record用Solr/Elastic Search 进行fuzzy search么? : 还是直接用Lucene进行index? : : Lucene
|
p****2 发帖数: 518 | 8 就像好虫大侠讲的,因为包含模糊算法,这样子的schema和converter 怎么写呢?
【在 N********n 的大作中提到】 : : 既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新 : 录一遍呗。数据有备份,做好了试一试就该够了,反正你的SCHEMA不会大改。
|
p****2 发帖数: 518 | 9 很好的tips!
感觉Lucene用起来更加自由一些,现有三个 data source(每个department对应一个独
立的data source), 怎么搞index好呢?
【在 g*****g 的大作中提到】 : You can get a score on match, obviously you can set a score threshold, use : one data source to search another as one time processing to merge the : records. And each column can be weighted. Lucene is probably more flexible : for you.
|