由买买提看人间百态

topics

全部话题 - 话题: lucene
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
b******y
发帖数: 9224
1
来自主题: StartUp版 - 问个特种搜索引擎的问题

我自己编写的类似lucene的搜索library. 不同之处是,lucene 处理中文的能力远远不
行。还有就是,自己写的东西,好调整, memory, performance啥的。
基本上,这个相当于自己发明的搜索算法了。当然,功劳在于lucene了。是受了他家的
启发。
solr只不过是个wrapper而已,不是啥computer science challenging的东东。要说
challenging的,还是lucene,有点儿算法啥的。
如果继续讨论这个,版上很多人都看不懂了。不行只能去programming版去了。
M***0
发帖数: 1180
2
谢谢楼上各位
solr/lucene我们研究过了,速度太慢。我们自己的源代码,功能和lucene几乎完全相
似,但是针对我们自己的业务定制和优化过的,Performance比lucene好不少
lucene相当generic,适用于各种领域,比较适合小型项目,也因为它的优点,使得它针
对性不够强
c****e
发帖数: 1453
3
来自主题: Programming版 - server side language 统计,java:.Net = 1:5
对于这几个比较热门的东西,说一说我的了解。
Lucene.net低一个版本。Lucene 4有BM25F,在ranking上也有一些改进。.net的还是3.
03,确实差一些。
和Cassandra对应的有RavenDB,全部c#写的。而且支持transaction. feature上很强大
Interactive query的结果就是Lucene的index, 很好很强大。因为license的关系,没
有MongoDB popular.因为用的人少,和Cassandra比成熟度肯定要差一些。
Hadoop, 微软买了License, 把Hadoop, Hive, Pig一起package出了一个HDInsight.在
Azure上面也是直接deploy就可以用了。
大家有兴趣可以看看IKVM.一个C#写的java vm.自带一个IKVMC可以把jar转成.net Dll.
很多地方就是这么用standford NLP的。
w***g
发帖数: 5958
4
来自主题: Programming版 - NLP是使用什么技术或框架实现的?
NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就
是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能
就做不了了(请专家指正)。Lemur可以做。还
有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超
大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。
文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
等,然后就是机器学习了。
理论一点的研究领域叫computational linguistics,研究怎么... 阅读全帖
z****e
发帖数: 54598
5
要快就是先把能建index的地方全部建起index
比如time, 至少能够根据date建index
其次给node编号,也可以建index
不同的系统,然后根据level也还可以建index
到底是exception呢,还是error还是debug etc.
最后对于log本身做inverted index table的cache
酱紫就可以mr了,index的话,很多nosql都可以做
iit的话,用lucene,所以c*+lucene应该可以
可以看看这个
http://github.com/Stratio/cassandra-lucene-index
r**l
发帖数: 31
6
来自主题: JobHunting版 - G家的Ads和Search怎么选?
看你具体做什么了,这两个组都有好几百号人把
ads确实应用广,但是如果拿ads附属产品和search核心算法比,显然后者个人收获更大
,另外lucene也只是个library,search has way more than indexing/searching
话又说回来这两个都是成熟产品,想在G快速出人头地还是得靠新兴项目

(不是bso,真心想听听局外人的看法)
如果可以选择这两个group,从career发展的角度大家觉得哪个好?
个人觉得ads以后路更宽一点,毕竟外面做这个的公司很多。
而search除了google几乎就没地方去了,小公司基本都直接用lucene。
但是google search的名气大,是不是即使转方向这个背景也有帮助?
大家怎么看?
y****r
发帖数: 211
7
来自主题: JobHunting版 - Job opening for software engineer
有兴趣的跟我发站内信。比较适合5年以下工作经验的。
==========
Palo Alto or San Francisco, CA, United States
Full-Time
< Back to Jobvite 1 of 1 Job | Previous | Next | Back to Jobvite
The *** Data team is looking for engineers to build and improve big data
processing pipelines and search indexing and analytics on top of Apache
Hadoop and HBase. Our team works extensively with open source software on
big data, social graph, and machine learning problems. You will have the
opportunity to work with and contribute to vari... 阅读全帖
T**********y
发帖数: 1
8
来自主题: JobHunting版 - Startup openings in MetroDC area
Who we are:
We are a well-funded startup developing cutting-edge data mining framework
for network security industry. We just got major investment and established
stable sales channel. We are looking for candidates for the following
positions. We offer competitive salary and stock options.
Please email to j**[email protected] if you have interest. Thanks.
=============================================
Title: Senior Front-end web developer
The role:
Develop a rich interactive web interface with java... 阅读全帖
o**********e
发帖数: 18403
9
【 以下文字转载自 Programming 讨论区 】
发信人: goodbug (好虫), 信区: Programming
标 题: Pinterest陶涛:三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话... 阅读全帖
o**********e
发帖数: 18403
10
【 以下文字转载自 Programming 讨论区 】
发信人: goodbug (好虫), 信区: Programming
标 题: Pinterest陶涛:三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话... 阅读全帖
y****9
发帖数: 252
11
来自主题: JobHunting版 - 吐槽贴,顺便求职业发展建议
感谢站内的热心网友帮忙,之前yammer的前辈内推了微软/Yammer。因为我是软粉(请
不要笑),一看Yammer 没有用.Net 就没有投了。
我不知道员工内推是不是有限制的,至少我在我公司也都是仔细看过之后才推,三个月
才推一个。如果真的有限制的话,和前辈说声抱歉,辜负了你的期望。
本人非大牛,工程牛校出来的水硕项目,高中noip,后来读工程了,目前是非常普通的
码农。下班后,基本上自己学习很多,包括.Net 领域里面的赵三本 (知乎“温兆伦”
推荐),此外在coursera上课。基本上下了班就是上课,写代码完成作业。个人喜欢后
端和底层的技术,分布式系统,设计模式,编程语言,解释器的东西,但是智商和审美
是硬伤,很少玩图形学,大数据和前端技术。
平时在公司,做.Net MVC,做后端的security。做权限和信息安全其实有时是个坑,不
断地添加各种模块来实现各种复杂的授权,SSO,OAuth, SRP, Federation等等。但
因为是大公司,基本上一半时间就能完成,以前这些时间我都拿去逛知乎,逛网站,一
周两题SPOJ去了,最近因为面试开始每天刷两道leetcode,因... 阅读全帖
e***i
发帖数: 231
12
来自主题: JobHunting版 - 问个设计题
沿着赵策老师的思路拓展一下下。答案就是:找轮子。
先问有多大数据量
初创公司:
Framework直接上ruby on rail,前端随便,前后数据接口JSON,后端用MySQL做永久
储存,上Lucene家族(elasticSearch, Solr)做搜索索引。
大大大公司(Facebook那么大):
Framework上JVM家族,前端外包,后端Vertica做实时存储,Hadoop+Storm做批量,
Cassandra加Spark做实时,上Lucene家族sharded

发帖数: 1
13
New opening
Lead Data Scientist
Job Description
We are developing a large data platform for mobile advertising. This is a
great opportunity for an outstanding candidate to build the core
intellectual property on our latest product from the ground up. The position
will be focused on building predictive modeling with Hadoop. If you want to
work on bleeding-edge technology, handling hundreds of millions of
transactions a day, this may be the opportunity for you!
What You Need For This Position
PhD ... 阅读全帖
g********g
发帖数: 2172
14
来自主题: StartUp版 - 诚恳、严肃寻报价-购物网站
这里只是讨论JAVA能不能胜任, 那种语言好或坏, 这都要看具体项目, 每种语言都有好
处和坏处, 要JAVA只有坏处, 也存在不到现在, JAVA没有copyrights问题, flash里的
ACTIONSCRIPT只是用JavaScript语法, 和JAVA没有任何关系.
即使是小网站有时用JAVA也是最优, 比如你要用全文搜索,JAVA的Lucene是最好的工具,
Lucene后来也做了个PHP的版本, 但差很远. PHP本质上不适合这种要背后做很多
BINARY PROCESSING的工作.
b******y
发帖数: 9224
15
sounds like they used a modified version of Lucene, which is what I have
done, I have a modified version of Lucene also, as it allows me to easily do
my own customization for indexing and search...
w*******s
发帖数: 940
o**********e
发帖数: 18403
17
【 以下文字转载自 Programming 讨论区 】
发信人: goodbug (好虫), 信区: Programming
标 题: Pinterest陶涛:三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话... 阅读全帖
x**n
发帖数: 12542
18
来自主题: WashingtonDC版 - [合集] Java开发人员知识点
☆─────────────────────────────────────☆
Westridge (西岭) 于 (Wed Apr 18 00:03:19 2012, 美东) 提到:
Java开发人员知识点
1.听说过James Gosling,SUN和Oracle公司。知道网上下载Java的地址,在哪讨论Java
。练习过Java在Windows下的安装和配置。知道Java应用系统中常见的几种license和JCP。了
解bytecode和Java在不同系统下可以轻松移植的原理。
2.懂得基本的Java编程和行命令格式。了解面向对象的编程思路。
几个基本点:Java基本语法和控制结构,命名和代码风格,结构化,对象封装,继承,
抽象,多态,接口,异常处理,堆空间,栈空间,垃圾回收器,static,this,
synchronized,annotations,JUnit,JDBC,JSP/servlet
Java Core APIs: java.lang,java.util,java.io,java.awt,javax.swing,JFrame
,String,java.sql... 阅读全帖
d******n
发帖数: 186
19
NNMOM:
你是说会hadoop lucene solr的程序员不好找工作呢,还是公司不容易找到会hadoop
lucene solr的程序员呢?
F****n
发帖数: 3271
20
来自主题: Database版 - 为啥RDBMS只用一个Index? (转载)
【 以下文字转载自 Java 讨论区 】
发信人: Foxman (今狐冲), 信区: Java
标 题: 为啥RDBMS只用一个Index?
发信站: BBS 未名空间站 (Sat Mar 28 15:46:49 2015, 美东)
不久前有个项目要比较Lucene和主要RDBMS的search performance。因为老板想知道如
果把RDBMS当成NoSQL(就是Table Design的时候坚持denormalize) 用效果如何。经过
一段时间研究,
发现在其他条件不变的情况下单个column的search二者差不多,但多个fields/columns
的 query
RDBMS要慢的多 (e.g., select * from users where last_name='xxx' and email='
yyy")
进一步我发现RDBMS对一个Table在一个Query中居然一直只使用一个Index, 即使所有的
Column都有Index! 一开始以为是Query Planner根据selectivity的选择,但后来发现
根本不是这样:
1. 几乎所有的Quer... 阅读全帖
u**d
发帖数: 211
21
来自主题: Database版 - 为啥RDBMS只用一个Index? (转载)
在你这个案例里,关键在于你的 query 包含了 SELECT *
根据语义 * 就要把每个 record 里所有字段都返回。就意味着任何 plan 最终都要访
问 base table。所以 optimizer 会选择,在查询第一个 index 之后,直接访问 base
table,再对剩下的 predicates 做过滤。
要想达到你想象的效果,首先 base table 要有 primary key (类似 Lucene 里 Doc
ID 的概念)。其次,SELECT 语句只选择 primary key。这样 optimizer 只会访问
indexes,因为 indexes 包含了处理改查询的所有信息,而不会再访问 base table 了
。在对所有 indexes 做 intersect 的时候,有些系统未必会一定选择 merge join,
也可能选择 hash join。这也说的通,因为 hash join 有很多特殊的优化,比 merge
join 好,即使看起来还要建 hash table 似乎多余。如果你坚信 merge join 一定会
更好,那就用 hint ... 阅读全帖
I*****y
发帖数: 6402
22
来自主题: Java版 - how to run Java on Linux?
I am interested in testing Lucene (open source crawler) on my VPS installed
with CentOS 5.1
I wonder how to build the Java environment first before installing Lucene. C
an someone here guide me a bit?
thanks
j******n
发帖数: 108
23
我用tomcat + struts 见了一个简单的应用 (debian平台)
就是用户提交关键词,对应的 Action 用 lucene 搜索索引
索引放在单独的目录下
问题是提交查询后action无法打开索引,因为权限的问题
log 里的记录摘要是:
java.security.AccessControlException: access denied
(java.util.PropertyPermission java.io.tmpdir read)
我在tomcat 的 policy 里面做了如下设置,还是不行
grant codeBase "jar:file:${catalina.base}
/webapps/test/WEB-INF/lib/lucene-core-2.3.2.jar!/-" { permission
java.io.FilePermission "/home/xxx/index/.......", "read"; };
/home/xxx/index 就是索引存放的目录。
请问哪位大侠有类似经验?应该如何设置?
非常感谢!
F****n
发帖数: 3271
24
If you think of DBMS as nothing but indexing, Lucene has its own indexing
managing & access mechanism, which is much faster than other DBs for Lucene'
s own specific tasks.
b******y
发帖数: 9224
25
来自主题: Java版 - 请教个ec2 + nosql 的问题
nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的
lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说,
relational database相当好,没必要改了。
但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司
multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是
relational database.
亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL
数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。
Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传
统数据库足够了。
b******y
发帖数: 9224
26
另外,我的一大体会就是,多参与open source的开发。我当年就是这样做过来的。积
极参加了velocity template engine的讨论,lucene,hadoop等。
多看人家open source项目的源码,很有裨益。我曾经精研过velocity, lucene等的源
代码。还自己用javacci写了一些简单的compiler/interpreter.
a*****0
发帖数: 6788
27

积极参加了velocity template engine的讨论,lucene,hadoop等。
源代码。还自己用javacci写了一些简单的compiler/interpreter.
谢,您牛。 我倒是做过lucene enterprise search的项目但没看过源码。谢推荐。
F****n
发帖数: 3271
28
来自主题: Java版 - 为啥RDBMS只用一个Index?
不久前有个项目要比较Lucene和主要RDBMS的search performance。因为老板想知道如
果把RDBMS当成NoSQL(就是Table Design的时候坚持denormalize) 用效果如何。经过
一段时间研究,
发现在其他条件不变的情况下单个column的search二者差不多,但多个fields/columns
的 query
RDBMS要慢的多 (e.g., select * from users where last_name='xxx' and email='
yyy")
进一步我发现RDBMS对一个Table在一个Query中居然一直只使用一个Index, 即使所有的
Column都有Index! 一开始以为是Query Planner根据selectivity的选择,但后来发现
根本不是这样:
1. 几乎所有的Queries, Query Planner都只会选一个Index,根本没有啥优化可言--像
上面那种简单的例子,即使用第二个Index可以提高几千倍的速度,也不会用。而
Lucene总是使用所有的Index然后sort-and-merge。Pe... 阅读全帖
b***e
发帖数: 1419
29
来自主题: Programming版 - 算法求教
You have a classic inverted index problem. Usually this can be handled
effective by building hash index and use bit maps to store the results.
Google the term "lucene" or "solr", and read some related topics. It is
very straight forward to build a lucene-based inverted index repository
of your data. Then a ranked search will return you, not only all
entries whose score is more than 3, but also order the scores from the
highest to the lowest.

table
c***d
发帖数: 996
30
来自主题: Programming版 - 话说莫言也不会几国外语
前两天有个德国同事, 跟我说他在看中国小说, 说写的太搞笑啦。。我说你什么时候
学中文啦?他说不是, 是看的翻译版本, 莫言的酒神。
我知道Doug Cutting原来不会写java, 学习java的时候练手写了lucene. 又过了两年想
把lucene弄的更好点, 就开始了hadoop。 Rasmus Lerdorf本来是用c写动态网页的,
后来把常用的c的macro整理起来, 就成了php。 我们其实还处于知识和技术的黑暗时
代, 太多事情可以作了。多想想怎么把手里的工具用好, 或者作点好用的工具吧。
g*****g
发帖数: 34805
31
来自主题: Programming版 - server side language 统计,java:.Net = 1:5
I don't understand what you are trying to prove. You want something similar
to TFS, I show you Jenkins+Maven. More popular, more powerful, cheaper. Why
does Java have to implement TFS exactly to prove my point?
I've got a long list of libraries and products, spring, aspectj, lucene,
maven, gmail, ebay, twitter, netflix, linkedin and have you showed me
counterparts implemented in .NET? Talking about spinning.
To give you a more concrete example, Twitter leverages Lucene and Cassandra
to do real t... 阅读全帖
c****e
发帖数: 1453
32
Vertical market一直有人做。很多用的的确就是hadoop+lucene.很多电商的产品搜索
也就是用的这些。这个组合达到了搜索引擎的最基本需求,但是和Google,Bing之类的
没法比。最重要的就是有没有relevance的infrastructure. Index的build可以通过
hadoop解决scale的问题,但是lucene的query serve非常慢。relevane才是硬骨头。至
于细节就更多了,speller, query understanding, user intent都需要大量的用户数
据和click,这就是为什么很多网站的站内搜素超级烂,还不如从google直接搜。
Ebay这么大的公司,自己的product search都很难做,挖了一些人做Cassini,效果并不
好。
http://www.slideshare.net/fullscreen/cloudera/hadoop-world-2011
你要找crawler可以看nutch,parse pdf这样的文档可以用tika.至于动态页面的parsing
,可以自己wrap webki... 阅读全帖
l*******s
发帖数: 1258
33
来自主题: Programming版 - 与其无意义的争论,不如干点实事
先精神支持一下lz
想搞个项目,兴趣也好,为了以后找工作也好,赚点钱也好,都无所谓,关键是:你想
做,那就去做吧。别在乎别人,尤其是这个bbs的人对你的冷水。很多人都是这样,自
己整天光会在网上灌水,实际生活中缺少实干精神;结果看到别人要下手干了,自己又
去冷嘲热讽。我承认,我有时候也这样。
只是一点意见,供你参考:
1.刚开始团队越小越好,实在不行自己单干。
2.没必要从头搞搜索引擎。这个东西要是从头弄,实在太麻烦了,crawler、index、
query都要自己写,后面还有scale、speed、permission等各方面因素需要考虑。非常
耗精力。不如考虑用现成的比如Solr\Lucene,Elastic Search等,你不必重复造轮子。
3.既然定位华人类论坛,那就做出自己的特色来,比如在中文分词上、中文情感识别、
中文topic modelling、文章classification、发帖ID的coreference resolution等方
面下功夫,就其中几个方面超过google是有希望的,因为你针对这几个网站具体优化,
而google不可能搞得这么specific。... 阅读全帖
O******t
发帖数: 214
34
来自主题: Programming版 - 架构设计问题,请各位大神指点
更新如下:
#1 不做relationship,直接做full-text index
搜索速度快於做relatioship,但是keywords matching不精确。
类似搜索个“附件”,把所有含这个单词的都给拉出来了,而不是真的附件类的。
简单来说,就是出了很多junk的results。
#2 用lucene做index,加多个属性,现在正在搞,
因为是在.net平台,所以用了lucene.net,还在造轮子中,
高手如果有什么建议,或者现成东西,还望赐教。
多谢各位了。
p****2
发帖数: 518
35
是想把所有人原先可能重复的各项attributes合并到一起,得到一个干净的database
要对每一个record用Solr/Elastic Search 进行fuzzy search么?
还是直接用Lucene进行index?

Lucene
g*****g
发帖数: 34805
36
Solr/ES都是基于Lucene的,Lucene是一个搜索的库,Solr/ES是之上提供了应用级的支
持。
个人觉得ES比较先进,flexible schema, good scalability.
H****S
发帖数: 1359
37
Lucene 基本上是吧document看作bag of words,所以如果希望abc是在document的最前
面,best bet是用Term payload.
关于第二个问题,可以去看看Lucene提供的Porter stemmer
g*****g
发帖数: 34805
38
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话怎么办?如果解决了当然是可以去改一下它的代码,如果解决不了的
话,有的时候构架的限制解决不了是很麻烦的问题。
3、新技术往往看上去很美。这个话其实有两层意思,一种是真的看上去很美,如
果看上去不美也不能叫新技术了。第二层意思是往往只是看上去很美,真正用起来并不
美。我们知道一项... 阅读全帖
m***r
发帖数: 359
39
来自主题: Programming版 - Python 日报搜索
http://py.memect.com/search/
可以检索过去三个月的Python日报里的内容。支持多种高级查询
初步工作,问题不少,请大家指正.
## 最基础的关键词搜索
返回全部
http://py.memect.com/search/?q=*
IPython
http://py.memect.com/search/?q=IPython
布尔组合
AND (默认)
http://py.memect.com/search/?q=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B
OR
http://py.memect.com/search/?q=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B
NOT
http://py.memect.com/search/?q=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B
## 标签搜索
数据科学
http://py.memect.com/search/?q=tag:%E6%95%B0%E6%8D%AE%E7%A7%91%
数据库
http://py.memect.com/search/?... 阅读全帖
z****e
发帖数: 54598
40
vert.x看懂了之后,你再看node.js, akka这些都不难
vert.x里面就把大多数流行的东西都给整合到一起去了
nosql那些你得用了才行,一个建议吧
nosql对于大多数领域来说,不如web那样有那么多无结构数据
但是有一个一定是无结构的,那就是log
你可以用nosql比如干脆就用file system比如hdfs存log
然后内部用lucene做一个搜索引擎
查log之类的,很方便,顺便lucene还可以查xml, html, text这些
m****o
发帖数: 182
41
来自主题: Programming版 - 这种情况该用那种big data tool?
直接上Lucene试试?group by可以尝试用Lucene-grouped解决。当然这个方案是撸单机
的,数据量太大的话就得去看看solr能不能搞了。
K*Q
发帖数: 1001
42
Lucid Imagination, the startup that commercially distributes the open source
Apache Lucene and Apache Solr search technology, has raised $10 million in
Series B funding from Shasta Ventures with Granite Ventures and Walden
International participating in the round. This brings the company’s total
funding to $16 million.
Lucid powers enterprise search technologies using the open source Lucene/
Solr search. Customers include Zappos, Nike and Netflix. The new funding
will be used to accelerate the a
t**********g
发帖数: 3388
43
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: goldenlife (goldenlife), 信区: SanFrancisco
标 题: 前即刻老兵:我所了解的人民搜索研发状况(zz)
发信站: BBS 未名空间站 (Thu May 23 23:47:29 2013, 美东)
前即刻老兵:我所了解的人民搜索研发状况
2013年05月24日 11:16 创事记 微博 作者:jikesolider 我有话说
邓亚萍领衔的即刻搜索,一直以来都备受关注
编者注:人民网旗下的即刻搜索,一直以来因名人效应、官方背景、种种变动而备
受关注。本文来自弯曲评论,作者jikesolider自称即刻老兵,仅供参考。
离开即刻已经几个月了,想起在jike将近三年的工作时光,感慨还是很多的,闲来
无事,整理下在即刻的点点滴滴,以供同行或者后续想去即刻谋生的参考。
即刻的前身叫人民搜索,当时可以说一穷二白,当时的领导是宫,由于对搜索不了
解,无从下手,就先和中科院进行合作,用开源的Lucene搭了个搜索,功能和性能不能
适合大搜索的要求。后来就搁浅了。
然后来了世界冠军,世界冠军... 阅读全帖
g****5
发帖数: 1639
44
Apache projects,从http server,tomcat,到hadoop,Lucene,都是欧洲人做的吗?
还有Linux下各种免费的语言compiler以及interpreter,也都是欧洲人做的吗?
另外,光有资本,没有知识产权保护,那不是进去多少赔多少嘛。中国也不缺资本,但
是就是搞不起来。
s******7
发帖数: 1758
45
lucene都开源了
码工届还是不错得,牛逼点的都开源了
除了华尔街的金融码工,bloomberge连个数据库都是自家的,结果现在被外面各种open
source爆到脱菊
l*****f
发帖数: 2198
46
FLAG 那些算法数据结构题跟这个比就是小儿科
阿里面试题:
一面:电话面试:80分32秒)
1.自我介绍?
2.做过哪些项目?项目中遇到哪些难点,你是怎样解决的?单点登录系统说一下?分布
式缓存的使用场景?(说好的基础呢,上来就是项目,毫无准备,导致好多东西都记不
起来了。面试官还说“那你说一个你记得的项目”,手动无奈。。。)
3.你实习的时候JDK用的是那个版本,这个版本有什么新的特性?
4.G1回收器和其他回收器有什么区别?
5.垃圾回收为什么会停顿?哪些对象可能作为GCRoots?
6.垃圾回收分代收集算法?为什么会有两个Survivor区?new一个对象会保存在哪里?
7.Java内存模型?volatile关键字,使用场景?原子性的理解?先行发生原则?
8.场景题:现在有三个线程,同时start,用什么方法可以保证线程执行的顺序,线程
一执行完线程二执行,线程二执行完线程三执行?
9.你是怎么理解线程安全的?HashMap是线程安全的么?如果多个线程同时修改HashMap
时会发生什么情况?
10.ConcurrentHashMap底层原理?每个版本的实现上有什么区别?
11... 阅读全帖
l*****f
发帖数: 2198
47
FLAG 那些算法数据结构题跟这个比就是小儿科
阿里面试题:
一面:电话面试:80分32秒)
1.自我介绍?
2.做过哪些项目?项目中遇到哪些难点,你是怎样解决的?单点登录系统说一下?分布
式缓存的使用场景?(说好的基础呢,上来就是项目,毫无准备,导致好多东西都记不
起来了。面试官还说“那你说一个你记得的项目”,手动无奈。。。)
3.你实习的时候JDK用的是那个版本,这个版本有什么新的特性?
4.G1回收器和其他回收器有什么区别?
5.垃圾回收为什么会停顿?哪些对象可能作为GCRoots?
6.垃圾回收分代收集算法?为什么会有两个Survivor区?new一个对象会保存在哪里?
7.Java内存模型?volatile关键字,使用场景?原子性的理解?先行发生原则?
8.场景题:现在有三个线程,同时start,用什么方法可以保证线程执行的顺序,线程
一执行完线程二执行,线程二执行完线程三执行?
9.你是怎么理解线程安全的?HashMap是线程安全的么?如果多个线程同时修改HashMap
时会发生什么情况?
10.ConcurrentHashMap底层原理?每个版本的实现上有什么区别?
11... 阅读全帖
o****e
发帖数: 916
48
来自主题: HiFi版 - okeoke.net 2.2 支持歌词搜索
新版本发布
2.3.0
支持格式:midi, kar (支持歌词显示) 和mp3+g
提高搜索速度。使用Lucene.net作为全文搜索引擎。
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)