由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 如何智能化合并数据库中属于相关objects的各种属性到一个object下?
相关主题
请大牛来谈谈对Solr的看法请问有什么好的开源中英文搜索引擎?
与其无意义的争论,不如干点实事一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
请教下本地搜索架构设计问题,请各位大神指点
怎么做个文件的 index, 比如archive 这样的如何将相似字符串更加准确地找出来?
StackOverflow的架构mongobd中的text search速度问题
搜索 lucene 之类是不是不流行了?solr shared index file solution (转载)
算法求教你们能scale out的都是有福的
请教一个跟search中用到的auto suggestion问题Index PDF和doc 是elasticsearch还是solr
相关话题的讨论汇总
话题: lucene话题: 合并话题: search话题: attributes话题: 智能化
进入Programming版参与讨论
1 (共1页)
p****2
发帖数: 518
1
譬如三个department合并了,所有人都合并到了一个大数据库中,而合并前有部分人是
在其中两个或三个department同时兼职的,关于同一个人的各种attributes,可能被分
别列在了不同的department下,而且某些人可能有多个相似的first name或nick name
,但一样的last name,
这些attributes 可能包括first name, last name, email, phone number, ssn,
address 等等 中的部分attributes
也就是说,关于是否为同一个人的智能化判断,需要分别设定weights,请教版上各位
大佬什么样的方式处理比较好?有没现成的相关framework可以使用的?最好是java的
整个数据库 大概几百million左右条目
多谢了!
d****n
发帖数: 12461
2
找一个primary key啊,例如ssn可以做一个key。剩下的按照primary key做排序。
职位没法简单合并。
p****2
发帖数: 518
3
但是就因为没有primary key,所以需要一个智能化的方案,譬如些machine learning
的方法
g*****g
发帖数: 34805
4
Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene
provides fuzzy search.

learning

【在 p****2 的大作中提到】
: 但是就因为没有primary key,所以需要一个智能化的方案,譬如些machine learning
: 的方法

p****2
发帖数: 518
5
是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database
要对每一个record用Solr/Elastic Search 进行fuzzy search么?
还是直接用Lucene进行index?

Lucene

【在 g*****g 的大作中提到】
: Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene
: provides fuzzy search.
:
: learning

g*****g
发帖数: 34805
6
You can get a score on match, obviously you can set a score threshold, use
one data source to search another as one time processing to merge the
records. And each column can be weighted. Lucene is probably more flexible
for you.

【在 p****2 的大作中提到】
: 是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database
: 要对每一个record用Solr/Elastic Search 进行fuzzy search么?
: 还是直接用Lucene进行index?
:
: Lucene

N********n
发帖数: 8363
7

既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新
录一遍呗。数据有备份,做好了试一试就该够了,反正你的SCHEMA不会大改。

【在 p****2 的大作中提到】
: 是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database
: 要对每一个record用Solr/Elastic Search 进行fuzzy search么?
: 还是直接用Lucene进行index?
:
: Lucene

p****2
发帖数: 518
8
就像好虫大侠讲的,因为包含模糊算法,这样子的schema和converter 怎么写呢?

【在 N********n 的大作中提到】
:
: 既然要一个干净的DB那就把SCHEMA改良一下然后写个CONVERTER把数据重新
: 录一遍呗。数据有备份,做好了试一试就该够了,反正你的SCHEMA不会大改。

p****2
发帖数: 518
9
很好的tips!
感觉Lucene用起来更加自由一些,现有三个 data source(每个department对应一个独
立的data source), 怎么搞index好呢?

【在 g*****g 的大作中提到】
: You can get a score on match, obviously you can set a score threshold, use
: one data source to search another as one time processing to merge the
: records. And each column can be weighted. Lucene is probably more flexible
: for you.

1 (共1页)
进入Programming版参与讨论
相关主题
Index PDF和doc 是elasticsearch还是solrStackOverflow的架构
有没有直接对pdf或者doc简历进行分析的开源软件?搜索 lucene 之类是不是不流行了?
如何评价google的Cloud AutoML算法求教
有没工具或framework可以对大数据库运行中去重复?请教一个跟search中用到的auto suggestion问题
请大牛来谈谈对Solr的看法请问有什么好的开源中英文搜索引擎?
与其无意义的争论,不如干点实事一个网站里的search功能,是在search这个网站的database,还是象IDE里面的search workspace?
请教下本地搜索架构设计问题,请各位大神指点
怎么做个文件的 index, 比如archive 这样的如何将相似字符串更加准确地找出来?
相关话题的讨论汇总
话题: lucene话题: 合并话题: search话题: attributes话题: 智能化