第8页 - 关于lucene的讨论汇总 - 话题女王

g*****g
发帖数: 34805

来自主题: Programming版 - 再说说我的Home Automation吧

LOL，现在承认牛皮吹破了？我老人家在Lucene上包个UI，搜索一下我们家里的数据库
也没问题，可我不叫它google.
nest既然跟你半毛钱关系都没有，就不是你平台上的一个应用。撒谎不觉得丢人吗？

n******1
发帖数: 3756

12360刚上线的时候，因为问题百出，当时中国就有一帮人说要做一个开源的12360项目
，当时还开了一个论坛好像是bbs.12360.org, 用来沟通协调，开始也有10来个成员，
刚开始还热火朝天的，还组织了架构，开了几次会，还在论坛上贴了一些初步的成果，
将论坛分成几个讨论模块，刚开始还有一两篇的技术文章，半年后我再去看，后来就变
成了贴垃圾广告的论坛，当然整个项目也不了了之
我对于美国开源社区项目的具体运作不是很了解，感觉开源项目比普通的项目还难管控
，也很难推进
像上面提到情况，可能是中国一部分包括我自己对开源项目的误解
我觉得开源项目是不是这样的
1.首先要有一两个强人，做了最基础的工作，功能基本齐备了，有一定成熟程度才开源
。据我了解的lucene和hadoop，都是同一个作者开始写，然后他把项目都donate给
apache，团队才慢慢扩大，当然他自己应该也有钱拿。我的问题是开源项目一般是怎么
启动的呢？有没有可能像上面说的那样，搞一个架构，一帮人远程讨论，分工合作？
2.第二个是后期的管理是怎么进行的呢？开源项目虽然是开放式，但不是每个人都有有
能力参与，项目负责人又是... 阅读全帖

O******t
发帖数: 214

来自主题: Programming版 - 架构设计问题，请各位大神指点

多谢各位指点，
我现在的分词是在lucene基础上做的。
但是设计到后面的多种关系filter部分，
感觉很蛋疼。
能否请大神展开说说

d*****d
发帖数: 180

来自主题: Programming版 - 架构设计问题，请各位大神指点

直接lucene生成index，每文档里可以加入多个属性，搜索时可以用逻辑表达式匹配这
些属性。7,8年前我这么做的，没问题

g*****g
发帖数: 34805

来自主题: Programming版 - 如何智能化合并数据库中属于相关objects的各种属性到一个object下？

Not that complicated, you just need to integrate SOLR/Elastic Search, Lucene
provides fuzzy search.

learning

g*****g
发帖数: 34805

来自主题: Programming版 - 如何智能化合并数据库中属于相关objects的各种属性到一个object下？

You can get a score on match, obviously you can set a score threshold, use
one data source to search another as one time processing to merge the
records. And each column can be weighted. Lucene is probably more flexible
for you.

p****2
发帖数: 518

来自主题: Programming版 - 如何智能化合并数据库中属于相关objects的各种属性到一个object下？

很好的tips!
感觉Lucene用起来更加自由一些，现有三个 data source（每个department对应一个独
立的data source）, 怎么搞index好呢？

p****2
发帖数: 518

来自主题: Programming版 - 有没工具或framework可以对大数据库运行中去重复？

测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软MS SQL
的de-duplication，在record数目到million级的时候，效率明显不够要求，
求个好工具，或者自己做的话，可以借用什么framework？
Lucene + Mahout? R语言?
多谢啦！

p****2
发帖数: 518

来自主题: Programming版 - 有没工具或framework可以对大数据库运行中去重复？

z****e
发帖数: 54598

来自主题: Programming版 - 求推荐一个search internet的API

web search跟api没半毛钱关系
其核心是数据的相似性
主要靠线性代数和统计model
在terms的space里面找相似性
也不是没有，但是这一块太新，可用的不多
你考虑一下apache lucene

z****e
发帖数: 54598

来自主题: Programming版 - 求推荐一个search internet的API

老弟，我知道你问的是什么
我已经给你答案了
关键字有至少三种模型可以用
线性代数的模型
统计的模型
还有上下文相关的概率模型
这个你要上点课才能明白
还有就是，现成的轮子就是Apache Lucene
google的系统也不公开，你也用不了，更谈不上免费
要做成php需要你自己搭轮子
你可能还需要apache http server
两个轮子如何凑，只能看文档

g*****g
发帖数: 34805

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

都是没实践过的瞎出主义，上个 Lucene，Tokenized fuzzy search就搞定了。

i**i
发帖数: 1500

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

full text search 在这种情况下效果不一定好。
lucene的stemmers在这里没有道理

g*****g
发帖数: 34805

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

Lucene的fuzzy search是基于Levenshtein distance的。加上tokenize调一下权重足以。

d*******r
发帖数: 3299

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

大牛能否比较下 Lucene&Solr VS ElasticSearch 分别的优缺点和适用范围?

S*A
发帖数: 7142

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

虽然例子里面用 sub string Levenshtein distance 就可以匹配上了。
但是 LZ 都说了，Levenshtein distance 不一定够用。
所以 Lucene的fuzzy search 不见得一定够用。
我可以举个例子，因为我对花花草草比较熟悉：
John Deere Landscapes 和 Lesco， Inc 没有相同的 sub string，
但是这是同一个公司。因为 branding 的需要，这种情况很常见的。
保洁，飘柔等等。
我就是提些思路如何引入 Levenshtein distance 以外的衡量指标，
说的不清楚还请包含。
当然如果可以简化成用 Sub String Levenshtein distance 那
就简单多了，上轮子也可以。

g*****g
发帖数: 34805

来自主题: Programming版 - 如何将相似字符串更加准确地找出来？

不是说你说的是错的，而是说你指点的不 practical. 需要写轮子的人必然很熟悉轮子
。剩余的人不需要写轮子。先看够不够用，再补充。Lucene fuzzy search给你返回一
个 score，要加权其他算法，要 plugin同义词都很容易。同义词的支持都是内建的。

k**********g
发帖数: 989

来自主题: Programming版 - mongobd中的text search速度问题

lucene solr?

P********l
发帖数: 452

来自主题: Programming版 - 询问一个提取mailist关键词并保存邮件的方法

１）自己做全文搜索，比如lucene。
２）google custome search. 看新语丝怎么做的http://www.xys.org/
３）以前有feed burner. 不知道现在有什么可以代替。

F*******e
发帖数: 662

来自主题: Programming版 - 想学习Search方面的技术，怎么入门?看什么比较好

http://lucene.apache.org/solr/

x****d
发帖数: 1766

来自主题: Programming版 - 求转行建议

立足现状，迎接挑战
你都java开发了，奥一奥就出头了，
回去做什么QA，QA过几年也会大发展的，
到时侯你又发现自己不行了
java现在也开始细分了，有的工作相对压力没那么大，
比如用spring做ETL的，
比如做企业内部bpm实现的，
做cms的搞solr的lucene的，
你留心找就是了，其实java开发没什么难的，
你关键问题是可能没圈子，
如果有人帮你，有啥的，
没有什么新技术一个小时手把手tutorial教不会的，
剩下工作里都是简单重复，copy and paste。
如果一个星期有人跟你聊两个晚上，
每次一个小时，不就是那些名词么，
你很快也可以象阿三一样忽悠了，
比如scrum，你要看书，累死你，
跟你见半小时，我觉得都太多，十五分钟，
够你忽悠三年的，解决一切scrum 面试问题。

b******e
发帖数: 1861

来自主题: Programming版 - solr shared index file solution (转载)

【以下文字转载自 Java 讨论区】
发信人: bigmouse (bigmouse), 信区: Java
标题: solr shared index file solution
发信站: BBS 未名空间站 (Wed Jul 2 14:59:27 2014, 美东)
如果不用single solr server，而是每一个jvm都有一个solr service,有什么好方案解
决共享lucene index文件的读写问题？infinispan只支持inmemory的index。也没有其
他opensource的机遇文件的？

p**********e
发帖数: 316

来自主题: Programming版 - 14位在世的最好的程序员

有几个人确实值得尊敬
Knuth, Anderson, creator of Lucene, Linus, Richard, etc

M*****n
发帖数: 2301

来自主题: Programming版 - 14位在世的最好的程序员

叫knuth是程序员不合适，不过也算不上侮辱
程序员一点都不比叫兽低级。
doug cutting不错，搞出来lucene和hadoop，在open source领域里面
算是很有影响了，是不是最好的不清楚
不过说那些IOI，acm训练营出来的是最好的程序员，就比较扯了，
和数学金牌不一定是数学家一个道理。

H****S
发帖数: 1359

来自主题: Programming版 - 有人熟悉apache solr吗

不明白为什么server side一定要限制语言。。。上rest不久好了吗？
非要python的话，tornado 加 lucene python extension

x****d
发帖数: 1766

来自主题: Programming版 - 你们能scale out的都是有福的

不能用云做？原来我有一个东西要用solr做，也要分布式，
后来发现还是别扯了，搜索的东东太复杂，
一般用户其实要求高，但因为完全不懂，好糊弄，
直接让他们用cloudant做了，自带lucene搜索功能，
我擦，太省事了，能用就行，管他呢，
累死累活就是那么回事。
搞几台solr的机器，down了真不好交代，
上云了，谁管他呀，爱谁谁，哈哈哈。

c****e
发帖数: 1453

来自主题: Programming版 - 请教peking2等ms->open source大神一个问题

我两个生态系统都做过不小的项目。微软主要是新的这一波没赶上，最潮的已经不care
了。所以但凡这两年折腾出来的东西，.net支持都很差或者基本没有。老一些的东西，
虽然基本都有，但是生态圈比较凋敝。就像你说的lucene,.net的port基本就死在3上面
了。
新的东西主要包括noSQL DB, Hadoop(HIVE/Pig/Impala), Spark这一圈。搞笑的是
Spark最开始还是按照微软dryad的paper用scala写的。09年微软内部就用基于dryad的
系统，但是微软自己完全丢掉了把这个开源或者服务化的机会。基因使然。
scalability这个事情，完全是看需求。就像这里天天不离口的Cassandra, 上了300个
node,一样问题多多。但是绝大多数人不会碰到。或者有几个会manage超过3000个node
的YARN cluster.有了EMR, Azure Insight这些东西,开个四个八个node算算一般东西，
都差不多。大家都说大数据，据统计平均的MRjob只有几个G,实在算不上大。说到大数
据，不能不提machine learning,虽然ML... 阅读全帖

H****S
发帖数: 1359

来自主题: Programming版 - 说scala好的进来看看

Try只能包住nonFatal exception，如果运气不好碰到一个fatal exception，恰好你的
business logic又需要对此情况进行特殊处理，那就挂了。这个不是不可能存在：比如
Lucene在做document indexing的时候，如果碰到OOM，它的javadoc是要求立刻关闭对
应的index writer，不巧OOM就是Try保不住的exception之一。

H****S
发帖数: 1359

来自主题: Programming版 - 说scala好的进来看看

我的意思是关闭Lucene index writer，不是说要关掉JVM。
[在 goodbug (好虫) 的大作中提到：]
：当然不是，你可以catch Throwable，但你得确保你知道你在干什么。所有server 最
外圈都是要catch Throwable的，运行时不能因为一个Error就退出JVM。
：
：...........

N*****m
发帖数: 42603

来自主题: Programming版 - ES怎么玩？

自己用zookeeper+lucene，还要负责replication吧
你们试过solr没有？

indexing

z****e
发帖数: 54598

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

它不得不感兴趣，这个是future，它可不会轻易掉队
当然谈理想是一回事，谈理想更象扯蛋
但是如果具体到实践，比如lucene还有elasticsearch
你觉得谁最有经验？
这两个不就有大量的text和string相似判断的理论应用？
我们说的这些不过是如何把这些东西应用到更为复杂的领域中去而已
但是我相信一旦有新的技术出来，估计古德霸上手得比你我都快不少
其实我到现在也还是不太懂jvm里面一些理论，这里也没几个人真懂
但是不妨碍我干活，新领域没办法，不得不先从理论创新开始
也就是不得不扯蛋，扯蛋对了之后再执行下去，做成类库
旧领域，不搞也罢

w***g
发帖数: 5958

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

其实是心态问题。从科幻的角度看，观察人类怎么艰难地往singularity迈进，一切就
很有意思，自己做的东西再不起眼，在这个大潮流中也有一个位置。换个心态就是我怎
么天天要给别人擦屁股，怎么天天要学新的东西，生活就会看似很miserable。
lucene和elasticsearch没听你们讨论过，说不出谁最有经验。

w***g
发帖数: 5958

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

Lucene一个library而已，和hadoop, C*这类比复杂性要少一个数量级。
主要是技术非常成熟，不怎么会有surprise。Elastic search我没用过。

g*****g
发帖数: 34805

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

ES跟C*从使用者Learning curve上说大约一个级别。开发这些轮子难度我不知道，没有
一个是我写的。
现在都是SOA，ES作为一个standalone server，使用范围比较广，跟一个数据库类似。
Lucene更多的是要自己定制化搜索的时候用的。

w***g
发帖数: 5958

来自主题: Programming版 - scala开发效率确实奇高

出了三层架构或者MVC这个框框，要把分层分清楚是很难的事情。
我这两天在做实时推荐，哪些数据要存硬盘，哪些数据要常驻内存，
哪些要cache，哪些要redundant，哪些丢了也不怕，哪儿可能是
I/O瓶颈，哪些性能无所谓，这些都要想明白，然后再选用最合适
的软件。我觉得我的经验比你们大部分人都多多了。
我见到的大部分人设计数据结构都是在选定了软件之后进行的。
你说的j2ee程序员，对于很多人来说lucene都是一个新东西，能有多少经验。

d*******r
发帖数: 3299

来自主题: Programming版 - 关于es的缺点

我看 ES 官方文档说，建议上 16G~64G 内存的机器，建议分配一半机器内存给 ES, 其
余让 Lucene 吃掉.
我想问问 goodbug 和二爷，JVM 的这种 service 都比较吃内存的，是吧？
Cassandra 理想的内存大小和分配是怎样的. 估计好不少，因为是 write 优化的？

d***n
发帖数: 832

来自主题: Programming版 - 建议大家多看看云平台

现在什么都往云里挪
什么都做成service
是什么语言还有那么重要么
需要什么就用什么
怎么快就怎么弄
我自己做的东西
一部分用vs和c#不妨碍我用
lucene和elastic search, Redis Cache
也不妨碍我用sendgrid之类的服务
数据库可以用sql azure, mangodb, azure storage。。。
.NET, Java, PHP, Node.js, Python都可以host在azure websites里
也可以从Git, TFS, GitHub deploy
总之，云平台可以聊的东西太多了
我做的小东东所有都在云里

p**r
发帖数: 5853

来自主题: Programming版 - 请教下本地搜索

我先说下我现在的方案
提供一个UI给administrators写DB
然后做一个publish把内容从DB里publish到lucene给前端做read-only搜索
大牛们看看是否合理，有啥更好的方法？

p**r
发帖数: 5853

来自主题: Programming版 - 请教下本地搜索

明白了，同步两个actions。
再有一个问题ES和lucene相比的，优缺点有啥？

transaction

g*****g
发帖数: 34805

来自主题: Programming版 - 请教下本地搜索

ES是个standalone server, Lucene是个类库。前者用后者来做搜索。
对大部分用户来说，前者更方便。需要深度定制搜索的企业，会在后者基础上上做自己
的搜索。

g*****g
发帖数: 34805

来自主题: Programming版 - 请不要盲目崇拜FP语言

10-20分钟是没什么，幸好你们只有几千万行代码，日后要是有几亿行，就得100-200分
钟。每天上班搜两次，就可以下班了。用checkin 引发 Lucene索引，数据延迟最多几
分钟，比你动辄10-20分钟的搜索延迟可低多了，不是从cache中返回的，可这时间新的
checkin你就没搜到，有啥区别。我看你对基本逻辑都没弄清楚还。

从某个cache中返回的。

x****d
发帖数: 1766

来自主题: Programming版 - 请教如何学java和找工作

如果建网站只为搜索，办法很多，要悦目桑心，这个标准不同一很难说。
为搜索，java的生态不是有lucene和solr么？还有elasticsearch，实在想不出要
wordpress的理由。
要悦目，java也有cms啊，alfresco对你来说不比wordpress差吧？
要对公众开放，aws不是一年免费吗？
自己记录的东西貌似适合用nosql啊，ibm的nosql云免费也够你用了吧？可以搜索。ibm
之外也不计其数免费资源。你有钱要造，当我没说，有钱我觉得怎么也要上能支持
spring的云吧？用spring做个简单的wordpress样子的东西还是很轻松吧？不会spring
这年头真不好意思说自己会java。

e********2
发帖数: 495

来自主题: Programming版 - 看了大家的讨论，心里很慌啊

网络，图像，ML，统计之类的就是用C++。IR可以用lucene (java), distributed
system，database都必须用java。你做什么研究决定你用什么语言。想学java，那还不
如换方向，换方向语言也必须换。

e********2
发帖数: 495

来自主题: Programming版 - 西方以词为单位取得先机

读Lucene有感。老祖宗以字为单位，导致分词困难。古代一个句子不分开也确实挺难读
的。

e********2
发帖数: 495

来自主题: Programming版 - 数据库表太大？

用lucene，luke。

EC2

g*****g
发帖数: 34805

来自主题: Programming版 - Python过去一年利好真不少

尼玛5K也好，200K也好，都他妈有脸拉出来说。都是垃圾。先拿个能跟Lucene，
Elastic Search, Solr比的东西再来丢人吧。

N********n
发帖数: 8363

来自主题: Programming版 - Python过去一年利好真不少

泥马LINQ是个语言FEATURE。LUCENE是个软件MODULE，根本风马牛不相及。多
傻逼的人才会用语言FEATURE跟特制软件比啊？

g*****g
发帖数: 34805

来自主题: Programming版 - Python过去一年利好真不少

你丫linq就是个没用的垃圾，吹半天连个 lucene都做不出来， 200k 都能有性能问题
，你丫听不明白是吧？

g*****g
发帖数: 34805

来自主题: Programming版 - 选择C#/.Net做Backend较之Linux有什么Advantage吗?

30K RPS most are readonly. It's not really that hard. This is not to
discount what they achieve. But they route their search traffic to Elastic
Search (java stack), most read traffic to Redis cluster (running on Linux),
a fraction of traffic hits the main MSSQL DB (mostly writes I guess). They
plan to move their logging to logstash, apparently they can't achieve their
logging need under .Net (probably local logging right now), and want to
leverage another Java product.
I would be impressed if th... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - show下我做的大数据平台

Lucene现成的，这东西没有必要从头写。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天