3450399331
网站优化

用Robots协议引导蜘蛛对页面进行抓取

发表日期:2025-04-17   作者来源:www.fzwsu.com   浏览:219   标签:网站优化 SEO SEO优化    

  Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解析Robots文件的方案,蜘蛛可以了解什么页面可以爬行,什么不能爬行。通常来讲,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,仅需在Robots里面设定Disallow (禁止抓取的命令)就能。但在实质运营中,可能面临更复杂的状况,譬如整站已经在HTTPS下,但部分页面需要蜘蛛爬行,如何解决?有以下几个解决方法。

  (1)复制一份到HTTP下。

  (2)用user-agent判断来访者,将蜘蛛引导到HTTP页面。

  关于Robots文件,详细说明如下。

  (1)特定页面已经无需蜘蛛抓取,可以进行Disallow。

  (2)某类集中的页面具备一同的URL参数,可以达成批量禁止抓取功能。在操作批量禁止的时候,需要防止误伤,即具备同样URL特点的功能可能并不在禁止的目的之内,无意中被禁止了。

  关于相同种类特点的URL的一个特殊应用就是批量禁止动态URL的抓取。譬如一个动态发布内容的网站,初始页面都是动态页面,从网站优化角度考虑,这类动态页面全部批量生成了对应的静态页面,如下。

  http://www.abc.com/?id=1

  http://www.abc.com/?id=2

  ......

  (已经批量生成了如下)

  http://www.abc.com/ 1.html

  http://www.abc.com/2.html

  ......

  假如同时被蜘蛛抓取了动态页面和对应的静态页面,那样网站就存在很多的重复页面,对网站优化是不好的。可以通过Robots功能,统一禁止动态URL的抓取,譬如在Robots文件里写如下内容。

  Disallow : /*?*

  在抓取方面,蜘蛛会依据实质状况调整对网站的抓取频次,即分配抓取定额,天天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站假如一次性提交10万条URL,并不意味着蜘蛛会非常快把10万条数据抓取回去,因此,需要有耐心跟踪搜索蜘蛛在网站天天的爬行和网站收录状况。

  以上就是《用Robots协议引导蜘蛛对页面进行抓取》的全部内容,仅供站长朋友们互动交流学习,网站排名优化是一个需要坚持的过程,期望大伙一块一同进步。

如没特殊注明,文章均为登烈建站 原创,转载请注明来自http://www.nousuan.com/news/youhua/4/16937.html