ml、图片、doc、pdf、多媒体、动态网页及其 它格式等。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。搜索引擎蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、 等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这 些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重 要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时 候,也需要过滤这些无用的链接。例如某个网面的死链接,或者是链接到垃圾网站的外部链接。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,seo链接文本)和相关的文件注释来判断这些文件的内容,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
动态网页一直是搜索引擎蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给搜索引擎蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型 的网页对于搜索引擎蜘蛛来说,可能还稍微容易一些。搜索引擎蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,搜索引擎蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给搜索引擎蜘蛛的抓 取带来很大的困难。
四、更新周期
由于网站的内容经常在变化,因此搜索引擎蜘蛛也需不断的更新其抓取网页的内容,这就需要搜索引擎蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
搜索引擎seo的更新周期对搜索引擎搜索的查全率有很大影响。 |