由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 想搭一个搜索引擎,哪种open source的crawler最好? (转载)
相关主题
求推荐一个search internet的API关于es的缺点
是我的错觉么?我觉得google的三架马车其实没啥东西Index PDF和doc 是elasticsearch还是solr
firtex vs lucene vs lemur学search engine哪种语言最有用?
请问有什么好的开源中英文搜索引擎?怎么写搜价格的程序比较好?
与其无意义的争论,不如干点实事[合集] IDE vs vim+cscope
请教各位,nutch(lucene)的index用lucene.net可以搜索吗?shortest path algorithm(dijkstra)的变形
web crawler?How to Parsing function in haskell?
这个web client application 该用什么语言好?parsing bibliography and sorting (转载)
相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: source话题: open话题: 哪种
进入Programming版参与讨论
1 (共1页)
t**********g
发帖数: 3388
1
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
a****l
发帖数: 8211
2
I don't think you have enough funding to make difference from any crawlers.i
.e., for the scale of your machine, whatever crawler would work just as
effective.

【在 t**********g 的大作中提到】
: 【 以下文字转载自 SanFrancisco 讨论区 】
: 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
: 标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
: 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
: 找到一些,没有idea哪一种crawler最好?
: http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html

t**********g
发帖数: 3388
3
看来您是search guru.请问从易用性方面讲,那种最易于安装和使用?
我要crawl一些vertical search,几百万个URL。
w***g
发帖数: 5958
4
我们用nutch,很烂。主要是一旦crawl的范围放大到整个internet,大部分时间就都花
在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules
避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然
不少软件允许用户自己plugin,但是对于没有什么经验的人来说找到这些rules比imple
ment一个crawler还要难。

【在 t**********g 的大作中提到】
: 【 以下文字转载自 SanFrancisco 讨论区 】
: 发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
: 标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
: 发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
: 找到一些,没有idea哪一种crawler最好?
: http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html

t**********g
发帖数: 3388
5
请问你们现在用什么crawler?
k***r
发帖数: 4260
6
这个不应该blame crawler吧。不是real time算出来的。

rules
imple

【在 w***g 的大作中提到】
: 我们用nutch,很烂。主要是一旦crawl的范围放大到整个internet,大部分时间就都花
: 在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules
: 避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然
: 不少软件允许用户自己plugin,但是对于没有什么经验的人来说找到这些rules比imple
: ment一个crawler还要难。

k***r
发帖数: 4260
7
vertical data一般需要content deep parsing。可以手写。数据量不大。

【在 t**********g 的大作中提到】
: 请问你们现在用什么crawler?
t**********g
发帖数: 3388
8
请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
k***r
发帖数: 4260
9
Lucene for indexing and heritrix for crawling

【在 t**********g 的大作中提到】
: 请问您知道lucence么?好像很多人都在lucence + heritrix。这个是干什么的?
1 (共1页)
进入Programming版参与讨论
相关主题
parsing bibliography and sorting (转载)与其无意义的争论,不如干点实事
问java api的问题请教各位,nutch(lucene)的index用lucene.net可以搜索吗?
parsing file in node: js or python ?web crawler?
请教一个parser的问题这个web client application 该用什么语言好?
求推荐一个search internet的API关于es的缺点
是我的错觉么?我觉得google的三架马车其实没啥东西Index PDF和doc 是elasticsearch还是solr
firtex vs lucene vs lemur学search engine哪种语言最有用?
请问有什么好的开源中英文搜索引擎?怎么写搜价格的程序比较好?
相关话题的讨论汇总
话题: crawler话题: 搜索引擎话题: source话题: open话题: 哪种