解密搜索引擎技术实战 : Luc
本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。
本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。
主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。
爬虫部分介绍了网页遍历方法和如何实现增量抓取。并介绍了从网页等各种格式的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节。
同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题做出了深入浅出的介绍并总结了实现方法。
在全文检索部分,结合Lucene3.0介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的最新应用方法。包括完整的搜索实现过程:从完成索引到搜索用...
本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。
本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。
主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。
爬虫部分介绍了网页遍历方法和如何实现增量抓取。并介绍了从网页等各种格式的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节。
同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题做出了深入浅出的介绍并总结了实现方法。
在全文检索部分,结合Lucene3.0介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的最新应用方法。包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。本书还进一步介绍了实现准实时搜索的方法。
展示了Solr1.4版本的用法以及实现分布式搜索服务集群的方法。
最后介绍了在地理信息系统领域和户外活动搜索领域的应用。
猎兔搜索(http://www.lietu.com)创始人,当前猎兔搜索在北京和上海均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。