【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《李晓明的搜索引擎原理 实践 系统的总结》,欢迎阅读!

这周看了李晓明的那本书,也就是你发给我的那本电子稿的。后来我在图书馆也借到了。只是书本有点破不敢看,后来直接看你发给我的电子稿。我原本开始看过的那基本的比较简单的有关搜索引擎或是信息检索的书籍上面都有好多章节基本上都是引用这本书的,由此可见这本书还是很好的,从我自己看书的情况来讲,我感觉这本书难度上面还可以,作为入门的书籍蛮好的。本书系统地介绍了搜索引擎的基本工作原理、实现技术及其系统构建方案。里面涉及到的算法还是比较多的,不仅仅是理论部分的阐述,更多的是原理部分的介绍,和一般的书籍不太一样,就我看过的几本书来看,这本书很经典。全书分三篇共13章,从一开始的基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。感觉里面的层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,对于现在的我来说具有学习和实用双重意义。
现在网上的信息量在爆炸性增长,目前我们从网上获得信息的主要工具是浏览器,而通过浏览器得到信息通常有三种方式。第一,直接向浏览器输入一个关心的网址(URL),浏览器返回所请求的网页,根据该网页内容及其包含的超链文字(anchor text)的引导,获得自己需要的内容;第二,登录到某个网站,根据该网站提供的分类目录和相关链接,逐步浏览,寻找自己感兴趣的东西;第三,登录到某个搜索引擎网站,输入代表自己所关心信息的关键词或者短语,依据返回的相关信息列表、摘要和超链接引导,试探寻找自己需要的内容。这三种方式各有特点,各有自己最适合的应用场合。没有什么好与不好的说法。第一种方式的应用是最有针对性的,第二种方式的应用类似于读报,用户不一定有明确的目的,只是想看看网上有什么有意思的消息;当然这其中也可能是关心某种主题。第三种方式适用于用户大致上知道自己要关心的内容。在这种场合,搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表,由用户一个个试探看是否为自己需要的。以上的三种方法也是我们日常生活中采用的主要方法。下面简单的讲述或是总结一下自己的所看所获。
从这本书中了解到我们目前的搜索引擎技术已经能做到在多数情况下满足用户的这种需要。CNNIC的信息统计指出,目前搜索引擎已经成为继电子邮件
之后人们用得最多的网上信息服务系统。同时,随着网上信息资源规模的增长,尤其是其内容总体和我们社会的演化发生着越来越密切的联系,研究网上存在的海量信息逐渐成为许多学科关注的一个方向。为此,不少研究人员也有采样搜集特定内容、一定数量网页的需要。这本书上讲的是以设计、实现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。为此我也渐渐搞懂为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是我们所需要的。这本书是按照上、中、下三篇展开相关的内容。上篇主要讲搜索引擎的基本工作原理,要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应的过程以及结果产生等。这里面涉及到的许多知识点我在其他书中也是见过的,但是也有许多好像没见过或是以前老师讲述的没有那么深入。这其中,有我们熟悉的URL,HTML,HTTP,CGI,MIME等基本概念,在上下文中也给予了必要的介绍。我们也在其中学到了很多以前不太懂或是只是懂一部分的东西。
中篇讨论和大规模实用搜索引擎有关的技术问题。所谓大规模在这里指至少维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格,其中书中展示了计算机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。下篇介绍挑战性更强一些的内容。这一部分我就没怎么看懂过,虽然前面几部分看的还行,还不是很迷糊,到了这一部分高级的应用感觉已经更不上了。我看过一些这方法的视频教程,讲的还可以,但是也只是涉及到一些表面上的知识。不会太深入的讲解。还有一部分讲解的全是技术方法方面的知识,这一部分我还没怎么看过,就像lucene搜索引擎,看了一部分java的代码,看不太懂,后来就没看,感觉先把书上的知识点,或是搜索引擎的原理部分看懂以后应该看那些技术的部分可能会好一点。
前面我所讲的一般称之为是通用搜索引擎为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语
本文来源:https://www.dy1993.cn/g2NG.html