开发自己的搜索引擎--Lucene 2.0+Heriterx

联合创作 · 2023-10-06 22:37

《开发自己的搜索引擎:Lucene 2.0+Heritrix》参加人邮社买书送礼活动,数量有限赶快抢购!详情请点击

  第一本讲解如何使用Lucene和Heritrix来构建搜索引擎的书

  一步一步带领您亲手构建企业级搜索引擎网站

  国内资深搜索引擎开发专家车东推荐

  配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!

  Google技术经理车东推荐

  国内第一本详细介绍搜索引擎开发过程的图书

  采用最新的Lucene 2.0

  互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。中文用户的搜索使用水平相对于西文用户目前仍然处于比较初级的阶段,而中文网站搜索功能的缺失也...

《开发自己的搜索引擎:Lucene 2.0+Heritrix》参加人邮社买书送礼活动,数量有限赶快抢购!详情请点击

  第一本讲解如何使用Lucene和Heritrix来构建搜索引擎的书

  一步一步带领您亲手构建企业级搜索引擎网站

  国内资深搜索引擎开发专家车东推荐

  配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!

  Google技术经理车东推荐

  国内第一本详细介绍搜索引擎开发过程的图书

  采用最新的Lucene 2.0

  互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。中文用户的搜索使用水平相对于西文用户目前仍然处于比较初级的阶段,而中文网站搜索功能的缺失也是一个重要的因素。

网站拥有了较多内容后,最先会考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心,这时,关键词检索的优势就体现出来了:

关键词检索可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户;

和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,从而大大提高信息的引用密度。

基于传统数据库的关键词检索由于性能问题让很多网站放弃了搜索功能,问题的解决归根结底还是需要一个全文引擎。而Lucene开源引擎的出现让这种原来被少数公司掌握的技术得到了迅速的普及,这里应该再次感谢引擎的核心贡献者Doug Cutting先生,同时也希望有更多的中文开发人员能积极投入到Lucene的相关项目开发中去,尤其在中文和其他亚洲双字节语言处理方面的问题。

Lucene也是我学习的第一个Java程序,当初是通过jdb一行行dubug了解其中的原理和机制的,非常高兴有这样一本专门的参考书出现,它无疑会为开发人员了解并更快掌握全文检索技术节省大量的时间。

国内资深搜索引擎开发专家 车东

  《开发自己的搜索引擎:Lucene 2.0+Heritrix》详细介绍了如何应用Lucene进行搜索引擎开发,通过学习《开发自己的搜索引擎:Lucene 2.0+Heritrix》,读者可以完成构建一个企业级的搜索引擎网站。

  《开发自己的搜索引擎:Lucene 2.0+Heritrix》是国内第一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过详细的对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。《开发自己的搜索引擎:Lucene 2.0+Heritrix》适合Java程序员和从事计算机软件开发的其他编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。

  由于目前市面上从技术层面介绍搜索引擎的书并不多,即使有,也大多停留在理论阶段,而非搜索引擎的开发过程。因此,可以说《开发自己的搜索引擎:Lucene 2.0+Heritrix》是国内第一本详细介绍搜索引擎开发过程的图书。

  (1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重写了很多API,内部的实现方法也有了很大优化。《开发自己的搜索引擎:Lucene 2.0+Heritrix》的代码都是在2.0版本下调试通过的,这样可以帮助读者了解Lucene的更多新功能。

  (2)配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!

  (3)着重解决开发人员头痛的问题。《开发自己的搜索引擎:Lucene 2.0+Heritrix》的目的是指导项目实践,因此没有罗列各个API的用法,而是对常见的开发问题进行深入探讨,比如《开发自己的搜索引擎:Lucene 2.0+Heritrix》的第7章,是专门为解决“Word,Excel和PDF文件如何解析”这个问题而设置的。

  (4)内容新颖,前卫实用。《开发自己的搜索引擎:Lucene 2.0+Heritrix》介绍了Compass、Heritrix、DWR和HTMLParser等内容。在搜索引擎开发的过程中,这些均为相当重要且实用的技术,笔者经过自身实践将它们展现给读者,希望能让读者在学习Lucene的同时开拓视野。

浏览 1
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报