想搭一个搜索引擎，哪种open source的crawler最好？ (转载) - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)

相关主题
● 求推荐一个search internet的API	● 关于es的缺点
● 是我的错觉么？我觉得google的三架马车其实没啥东西	● Index PDF和doc 是elasticsearch还是solr
● firtex vs lucene vs lemur	● 学search engine哪种语言最有用？
● 请问有什么好的开源中英文搜索引擎？	● 怎么写搜价格的程序比较好？
● 与其无意义的争论，不如干点实事	● [合集] IDE vs vim+cscope
● 请教各位，nutch(lucene)的index用lucene.net可以搜索吗？	● shortest path algorithm(dijkstra)的变形
● web crawler?	● How to Parsing function in haskell?
● 这个web client application 该用什么语言好？	● parsing bibliography and sorting (转载)

相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: source话题: open话题: 哪种

进入Programming版参与讨论

1

(共1页)

t**********g 发帖数: 3388	1 【以下文字转载自 SanFrancisco 讨论区】发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco 标题: 想搭一个搜索引擎，哪种open source的crawler最好？发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) 找到一些，没有idea哪一种crawler最好？ http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
a****l 发帖数: 8211	2 I don't think you have enough funding to make difference from any crawlers.i .e., for the scale of your machine, whatever crawler would work just as effective. 【在 t**********g 的大作中提到】 : 【以下文字转载自 SanFrancisco 讨论区】 : 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco : 标题: 想搭一个搜索引擎，哪种open source的crawler最好？ : 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) : 找到一些，没有idea哪一种crawler最好？ : http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
t**********g 发帖数: 3388	3 看来您是search guru.请问从易用性方面讲，那种最易于安装和使用? 我要crawl一些vertical search，几百万个URL。
w***g 发帖数: 5958	4 我们用nutch，很烂。主要是一旦crawl的范围放大到整个internet，大部分时间就都花在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules 避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然不少软件允许用户自己plugin，但是对于没有什么经验的人来说找到这些rules比imple ment一个crawler还要难。【在 t**********g 的大作中提到】 : 【以下文字转载自 SanFrancisco 讨论区】 : 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco : 标题: 想搭一个搜索引擎，哪种open source的crawler最好？ : 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东) : 找到一些，没有idea哪一种crawler最好？ : http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
t**********g 发帖数: 3388	5 请问你们现在用什么crawler？
k***r 发帖数: 4260	6 这个不应该blame crawler吧。不是real time算出来的。 rules imple 【在 w***g 的大作中提到】 : 我们用nutch，很烂。主要是一旦crawl的范围放大到整个internet，大部分时间就都花 : 在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules : 避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然 : 不少软件允许用户自己plugin，但是对于没有什么经验的人来说找到这些rules比imple : ment一个crawler还要难。
k***r 发帖数: 4260	7 vertical data一般需要content deep parsing。可以手写。数据量不大。【在 t**********g 的大作中提到】 : 请问你们现在用什么crawler？
t**********g 发帖数: 3388	8 请问您知道lucence么？好像很多人都在lucence + heritrix。这个是干什么的？
k***r 发帖数: 4260	9 Lucene for indexing and heritrix for crawling 【在 t**********g 的大作中提到】 : 请问您知道lucence么？好像很多人都在lucence + heritrix。这个是干什么的？

1

(共1页)

进入Programming版参与讨论

相关主题
● parsing bibliography and sorting (转载)	● 与其无意义的争论，不如干点实事
● 问java api的问题	● 请教各位，nutch(lucene)的index用lucene.net可以搜索吗？
● parsing file in node: js or python ?	● web crawler?
● 请教一个parser的问题	● 这个web client application 该用什么语言好？
● 求推荐一个search internet的API	● 关于es的缺点
● 是我的错觉么？我觉得google的三架马车其实没啥东西	● Index PDF和doc 是elasticsearch还是solr
● firtex vs lucene vs lemur	● 学search engine哪种语言最有用？
● 请问有什么好的开源中英文搜索引擎？	● 怎么写搜价格的程序比较好？

相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: source话题: open话题: 哪种

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)