Skip navigation.

JL空间

contact to me: liuping.james#gmail.com (use @ replace #)

Posts tagged with "solr"

msn robot

,

Maybe someone wanna know.

1: msn function robot which can do msn work.
i used "http://jmsn.sourceforge.net/"
(Chinese people can find it http://www.pconline.com.cn/pcedu/empolder/gj/java/0412/512503_3.html)

2: analyzer. You should analyzer msn's word when u receive it.

3: search. return Response when finished search.

2 and 3, i used solr and analyzer use CJKAnalyzer.

看了下源代码,,整理了下 全文检索的分词大致步骤

,

适用目前大多数搜索引擎。

见我另一个blog

http://imjl.javaeye.com/admin/show/51421

整了个简单的msn机器人

, ,

使用方法: http://s.shttnet.com/robot.html

技术: msn机器人+solr

应用: 运价查询

深入: 加强分词,提升java code,这些还要看看它应用。如果人多再考虑深入

简单介绍solr

国内研究solr的人很少,所以中文资料也很少.但是有些翻译我觉得不准确,所以今天说下.

以下英文都是摘自solr的wiki页面,我只是做个大概翻译,翻译比较粗糙。大概就这么个意思。

What does Solr stand for?

Arguably, it stands for "Searching On Lucene w/Replication" -- but it should not be considered an acronym.

Solr这几个字母什么含义?
它可以理解成"基于lucene并且带复制"--但不能看成是它的缩写。



Where did the initial version of Solr come from?

"Solar" was initially developed by [WWW] CNET Networks as an in-house search platform beginning in late fall 2004. By summer 2005, CNET's product catalog was [WWW] powered by Solar, and several other CNET applications soon followed. In January 2006 CNET [WWW] Granted the existing code base to the ASF to become the "Solr" project.

Solr的由来

solr最初是cnet网站于2004秋天做为内部搜索平台开始使用。2005年夏天,CNET的产品目录变成SOLAR提供,同时一部分相关程序也跟进。2006年CNET授权现存的代码基于ASF,就这样就变成了SOLR项目。


Is Solr Stable? Is it "Production Quality?"

Solr is currently being used to power search applications on several high traffic publicly accessible websites.

solr是否稳定?它是否具备了生产特性?(国外一般把投入正式使用的称为生产)
Solr目前已经为一些高负荷的公开网站用来加强搜索。(wiki还列举了些一些网站,有兴趣的可以自己去看下)


SOLR网站:http://lucene.apache.org/solr/

SOLR WIKI:http://wiki.apache.org/solr/


目前SOLR网站提供的solr不支持中文。



上海至全球实时运价查询 http://s.shttnet.com

, ,

这是最近做的网站,,,花了三天时间.

代码其实只用了半天写,,关键还是网站排版和乱七八糟的excel数据处理.


这个网站是solr的中文实际应用

主要是全文检索,价格排序,也是个ajax应用.




solr中文检索

嘿嘿,,至少我做的时候国内还没:D






Solr介绍

Solr 企业级搜索引擎简介



Solr 是一个独立的企业级搜索引擎服务器,并提供类似web-service 的API接口。可以通过http协议把文档以xml格式的方式放入索引库。同样通过HTTP的GET协议接收XML格式的文档。

看到这里我想起了车东主持开发的WebLucene,早在3年前车东就为lucene提供了XML接口,后来吕克让也在此基础上添加了很多功能,大大方便了后继的维护工作。那么Solr有什么特别的呢?

首先,Solr 师出名门,apache的孵化项目:http://incubator.apache.org/solr/

具体功能看看下表吧:

* 高级全文搜索功能 ;
* 为高Web负载做了特别的优化;
* 基于XML和HTTP的标准开放接口 ;
* 功能完善的HTML的管理界面;
* 可伸缩,可以高效复制到其它Solr服务器;
* 基于XML的灵活性和可适配性;
* 提供支持插件的架构;

Solr 使用的是Lucene包,并对其进行了扩展

* 支持实用数据Schema, 比如:动态字段和唯一键等
* 对Lucene 查询语言的强大扩展;
* 支持动态搜索结果分组和过滤
* 高级的可配置文本分析功能;
* 高可配置性和用户可扩展的缓存服务;
* 提供性能优化参数;
* 使用XML在服务器外部进行配置;
* 提供服务器管理接口;
* 提供服务器监视日志
* 支持快速的索引增长升级和快照发布



看到这里,真想和Solr来个亲密接触呀。

另外,Solr有一个非常有意思的功能,支持 IndexUpdateListener ,这可是我梦寐以求的呀。

详情见这里:关于 IndexUpdateListener 的讨论

相关阅读:

中文分词和二元分词综合对比

关于lucene发展和多语言实现的方向

最近汇报

, ,

一直在看全文检索的东西,主要是lucene。

solr也在关注。


完成html(http://search.shttnet.com),db(http://www.shttnet.com),pdf,excel的全文检索。。。。后面两个写了demo,还没上线。


nio也在看。

December 2009
S M T W T F S
November 2009January 2010
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31