详解搜索引擎蜘蛛（Spider）

作者：habao 来源：未知日期：2012-3-13 14:17:55 人气：标签：

　　一、搜索引擎蜘蛛基本原理

　　搜索引擎优化蜘蛛即Search Engine Spider，是一个很形象的名字。把互联网比喻成一张蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面(通常是首页)开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网，那么搜索引擎蜘蛛就可以用这个原理把互联网上所有节点的网页都抓取下来。

　　由于互联网上无数的网站页面，搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。

　　在抓取网页的时候，搜索引擎蜘蛛一般有两种策略：广度优先和深度优先(如下图所示)。广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让搜索引擎蜘蛛并行处理，提高其抓取速度。深度优先是指搜索引擎蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。

　　由于不可能抓取所有的网页，有些搜索引擎蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、 F属于第1 层，G、H属于第2层，I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

　　搜索引擎蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让搜索引擎蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给搜索引擎蜘蛛提供相应的用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证

seo博客内容提取

　　搜索引擎建立网页索引，处理的对象是文本文件。对于搜索引擎蜘蛛来说，抓取下来网页包括各种格式，包括ht

ml、图片、doc、pdf、多媒体、动态网页及其它格式等。

　　对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。搜索引擎蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。

　　HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：、、等，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网面的死链接，或者是链接到垃圾网站的外部链接。

　　对于多媒体、图片等文件，一般是通过链接的锚文本(即，seo链接文本)和相关的文件注释来判断这些文件的内容，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。

　　动态网页一直是搜索引擎蜘蛛面临的难题。所谓动态网页，是相对于静态网页而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，也可以减少网页所占服务器的空间，但同样给搜索引擎蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php等。这些类型的网页对于搜索引擎蜘蛛来说，可能还稍微容易一些。搜索引擎蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页，如果要完善的处理好这些网页，搜索引擎蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给搜索引擎蜘蛛的抓取带来很大的困难。

　　四、更新周期

　　由于网站的内容经常在变化，因此搜索引擎蜘蛛也需不断的更新其抓取网页的内容，这就需要搜索引擎蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。

　　搜索引擎seo的更新周期对搜索引擎搜索的查全率有很大影响。

本文网址：

上一篇：美国摄影师策划大型摄影活动(组图

下一篇：江干区学习摄影技术