【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《搜索引擎爬虫蜘蛛爬行统计分析程序开发总结电脑资料》,欢迎阅读!
搜索引擎爬虫蜘蛛爬行统计分析程序
开发总结 -电脑资料
一、搜索引擎蜘蛛爬行统计分析的必要性:蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些...
一、搜索引擎蜘蛛爬行统计分析的必要性:
蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些页面以及返回哪些信息给蜘蛛,掌握了这些情况我们才能对网站进行有针对性的优化改良,因此查看蜘蛛爬行日志是一件非常重要但却非常痛苦的工作,尤其是SEOER及新站站长来说,
搜索引擎爬虫蜘蛛爬行统计分析程序开发总结
。比如从网上看到蜘蛛爬行某个页面后如果返回200 0 64 ,则表示此网页极有可能要被 搜索引擎删除,HEAD 请求返回404也表示要删除网页,如果我们能根据日志及时发现此现象就能根据实际情况及时做出调整。又如,蜘蛛爬行返回的301,302重定向及404错误等信息,也是网站管理员需要关心的问题。因此可以看出分析蜘蛛爬行日志的必要性。
二、蜘蛛爬行统计的方法:
由于蜘蛛机器人在网站爬行时是不会爬行JS(多次爬行只执行0次或者一次),flash,img等标签的,因此,目前第三方统计软件 (如阿江、中国站长站、雅虎、google等统计系统)还无法统计到蜘蛛爬行记录。因此目前分析蜘蛛爬行主要通过以下方法: 1、利用PHP,ASP根据浏览器返回的USER_AGENT来动态进行跟踪记录,这样的确可以实现目的,但其缺点很明显:
a)加重服务器负担,对于内容多及权重高的网站,蜘蛛抓取是非常频繁的。在网页中插入的代码会额外加重服务器的负担。
b)由于搜索引擎相对来说比较喜欢静态页面,很多网站都利用CMS把内容生成静态文件,这样就无法统计了。湖南某seo公司介绍使用img标签或者script方式,即在静态文件中将统计脚本利用img或者script标签调用的方式,此方法经过我一个月的试验,无法实现,蜘蛛不抓取页面。
2、利用第三方日志分析工具:如linux下awstats及windows下的Webalizer,其缺点也很明显。比如如果您是虚拟主机用户的话,由于每天产生的日志非常多,每次分析时下载日志文件是一件非常痛苦的事。同时这些软件太专业了,不适合一般站长使用。
3、如果您有更好的蜘蛛爬行分析方法请您和广大站长一起分享。 三、专门针对搜索引擎蜘蛛爬行统计的日志分析工具开发总结: 1、 我们分析日志中需要关心蜘蛛爬行相关资料: a)蜘蛛爬行日期:根据此来查找蜘蛛爬行的规律。
b)蜘蛛IP地址:不同来源的IP地址的蜘蛛的作用是不同,可以结合爬行日期及下面要讲到的请求方式HEAD,GET来进行更详细的规律总结。
c)请求方式:主要有HEAD和GET方式,其作用是不同的。HEAD方式一般是上次蜘蛛来访问时发生一次或多次404错误,因此蜘蛛发送HEAD请求确认此网页是否存在,一旦发送此请求如果返回依然是404的话,那么您的网页就要被搜索引擎从数据库中删除了。GET方式大家都很明白就不说明了。
d)爬行页面:蜘蛛爬行了哪些页面。
e)状态码:服务器给蜘蛛返回的状态码,我们一般关心的是200,301,304,302,404,尤其是404及301,302,
电脑资料
《搜索引擎爬虫蜘蛛爬行统计分析程序开发总结》。404表示死链,极大影响 网站优化,301,302目前还是不能被 搜索引擎友好识别,有作弊的嫌疑。 f)流量:在落伍上看到很多个人站长反应自己的服务器被蜘蛛拖跨,虽然这种说法有点夸张,但对服务器产生的压力绝对不容忽视,尤其是某些太疯狂的蜘蛛,每天产生很大的流量,因此我们需要统计出这些蜘蛛的相关信息,对我们不关系的搜索引擎蜘蛛可以在robots.txt中进行限制,以节约我们宝贵的服务器资源。
综合以上考虑,使用WEB语言开发一套一个使用简单,但功能专业的蜘蛛爬行统计程序放在自己的WEB空间上。这样可以随时随地检查蜘蛛爬行日志是非常必须的,并且可以避免下载日志的痛苦(当然,如果您使用的是独立服务器的话且你能熟练使用那些专业的日志分析工具就不提了),如果能实现以上功能的同时我们在结合一些第三方的统计工具,那么我们小站长就完全可以撇开那些专业的日志分析软件。
2、开发语言的选择:由于这套分析程序是放在WEB服务器上的,因此考虑移植性是非常重要的,在WEB语言中,主要有JSP,php,asp,asp.net语言,JSP一般服务器是不支持的,ASP及.net在LINUX平台下不支持,唯一可以选择的是PHP语言。一般的windows及linux主机都会支持。其可移植性比较好。
本文来源:https://www.dy1993.cn/M0aG.html