t**********g 发帖数: 3388 | 1 【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html |
a****l 发帖数: 8211 | 2 I don't think you have enough funding to make difference from any crawlers.i
.e., for the scale of your machine, whatever crawler would work just as
effective.
【在 t**********g 的大作中提到】 : 【 以下文字转载自 SanFrancisco 讨论区 】 : 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco : 标 题: 想搭一个搜索引擎,哪种open source的crawler最好? : 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) : 找到一些,没有idea哪一种crawler最好? : http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
|
t**********g 发帖数: 3388 | 3 看来您是search guru.请问从易用性方面讲,那种最易于安装和使用?
我要crawl一些vertical search,几百万个URL。 |
w***g 发帖数: 5958 | 4 我们用nutch,很烂。主要是一旦crawl的范围放大到整个internet,大部分时间就都花
在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules
避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然
不少软件允许用户自己plugin,但是对于没有什么经验的人来说找到这些rules比imple
ment一个crawler还要难。
【在 t**********g 的大作中提到】 : 【 以下文字转载自 SanFrancisco 讨论区 】 : 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco : 标 题: 想搭一个搜索引擎,哪种open source的crawler最好? : 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) : 找到一些,没有idea哪一种crawler最好? : http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
|
t**********g 发帖数: 3388 | |
k***r 发帖数: 4260 | 6 这个不应该blame crawler吧。不是real time算出来的。
rules
imple
【在 w***g 的大作中提到】 : 我们用nutch,很烂。主要是一旦crawl的范围放大到整个internet,大部分时间就都花 : 在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules : 避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然 : 不少软件允许用户自己plugin,但是对于没有什么经验的人来说找到这些rules比imple : ment一个crawler还要难。
|
k***r 发帖数: 4260 | 7 vertical data一般需要content deep parsing。可以手写。数据量不大。
【在 t**********g 的大作中提到】 : 请问你们现在用什么crawler?
|
t**********g 发帖数: 3388 | 8 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的? |
k***r 发帖数: 4260 | 9 Lucene for indexing and heritrix for crawling
【在 t**********g 的大作中提到】 : 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
|