如何智能化合并数据库中属于相关objects的各种属性到一个object下？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 如何智能化合并数据库中属于相关objects的各种属性到一个object下？

相关主题
● 请大牛来谈谈对Solr的看法	● 请问有什么好的开源中英文搜索引擎？
● 与其无意义的争论，不如干点实事	● 一个网站里的search功能，是在search这个网站的database,还是象IDE里面的search workspace?
● 请教下本地搜索	● 架构设计问题，请各位大神指点
● 怎么做个文件的 index, 比如archive 这样的	● 如何将相似字符串更加准确地找出来？
● StackOverflow的架构	● mongobd中的text search速度问题
● 搜索 lucene 之类是不是不流行了？	● solr shared index file solution (转载)
● 算法求教	● 你们能scale out的都是有福的
● 请教一个跟search中用到的auto suggestion问题	● Index PDF和doc 是elasticsearch还是solr

相关话题的讨论汇总
话题: lucene话题: 合并话题: search话题: attributes话题: 智能化

进入Programming版参与讨论

1

(共1页)

p****2 发帖数: 518	1 譬如三个department合并了，所有人都合并到了一个大数据库中，而合并前有部分人是在其中两个或三个department同时兼职的，关于同一个人的各种attributes，可能被分别列在了不同的department下，而且某些人可能有多个相似的first name或nick name ，但一样的last name, 这些attributes 可能包括first name, last name, email, phone number, ssn, address 等等中的部分attributes 也就是说，关于是否为同一个人的智能化判断，需要分别设定weights，请教版上各位大佬什么样的方式处理比较好？有没现成的相关framework可以使用的？最好是java的整个数据库大概几百million左右条目多谢了！
d****n 发帖数: 12461	2 找一个primary key啊，例如ssn可以做一个key。剩下的按照primary key做排序。职位没法简单合并。
p****2 发帖数: 518	3 但是就因为没有primary key，所以需要一个智能化的方案，譬如些machine learning 的方法
g*****g 发帖数: 34805	4 Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene provides fuzzy search. learning 【在 p****2 的大作中提到】 : 但是就因为没有primary key，所以需要一个智能化的方案，譬如些machine learning : 的方法
p****2 发帖数: 518	5 是想把所有人原先可能重复的各项attributes合并到一起，得到一个干净的database 要对每一个record用Solr/Elastic Search 进行fuzzy search么？还是直接用Lucene进行index? Lucene 【在 g*****g 的大作中提到】 : Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene : provides fuzzy search. : : learning
g*****g 发帖数: 34805	6 You can get a score on match, obviously you can set a score threshold, use one data source to search another as one time processing to merge the records. And each column can be weighted. Lucene is probably more flexible for you. 【在 p****2 的大作中提到】 : 是想把所有人原先可能重复的各项attributes合并到一起，得到一个干净的database : 要对每一个record用Solr/Elastic Search 进行fuzzy search么？ : 还是直接用Lucene进行index? : : Lucene
N********n 发帖数: 8363	7 既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新录一遍呗。数据有备份，做好了试一试就该够了，反正你的SCHEMA不会大改。【在 p****2 的大作中提到】 : 是想把所有人原先可能重复的各项attributes合并到一起，得到一个干净的database : 要对每一个record用Solr/Elastic Search 进行fuzzy search么？ : 还是直接用Lucene进行index? : : Lucene
p****2 发帖数: 518	8 就像好虫大侠讲的,因为包含模糊算法，这样子的schema和converter 怎么写呢？【在 N********n 的大作中提到】 : : 既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新 : 录一遍呗。数据有备份，做好了试一试就该够了，反正你的SCHEMA不会大改。
p****2 发帖数: 518	9 很好的tips! 感觉Lucene用起来更加自由一些，现有三个 data source（每个department对应一个独立的data source）, 怎么搞index好呢？【在 g*****g 的大作中提到】 : You can get a score on match, obviously you can set a score threshold, use : one data source to search another as one time processing to merge the : records. And each column can be weighted. Lucene is probably more flexible : for you.

1

(共1页)

进入Programming版参与讨论

相关主题
● Index PDF和doc 是elasticsearch还是solr	● StackOverflow的架构
● 有没有直接对pdf或者doc简历进行分析的开源软件？	● 搜索 lucene 之类是不是不流行了？
● 如何评价google的Cloud AutoML	● 算法求教
● 有没工具或framework可以对大数据库运行中去重复？	● 请教一个跟search中用到的auto suggestion问题
● 请大牛来谈谈对Solr的看法	● 请问有什么好的开源中英文搜索引擎？
● 与其无意义的争论，不如干点实事	● 一个网站里的search功能，是在search这个网站的database,还是象IDE里面的search workspace?
● 请教下本地搜索	● 架构设计问题，请各位大神指点
● 怎么做个文件的 index, 比如archive 这样的	● 如何将相似字符串更加准确地找出来？

相关话题的讨论汇总
话题: lucene话题: 合并话题: search话题: attributes话题: 智能化

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)