用Robots协议引导蜘蛛对页面进行抓取

　　Robots协议是放在根目录下的一个协议，也是蜘蛛爬行网站的时候需要访问的第一个文件，通过解析Robots文件的方案，蜘蛛可以了解什么页面可以爬行，什么不能爬行。通常来讲，网站都是可以开发给蜘蛛来抓取的，某些不允许抓取的页面或者频道，仅需在Robots里面设定Disallow (禁止抓取的命令)就能。但在实质运营中，可能面临更复杂的状况，譬如整站已经在HTTPS下，但部分页面需要蜘蛛爬行，如何解决?有以下几个解决方法。

　　(1)复制一份到HTTP下。

　　(2)用user-agent判断来访者，将蜘蛛引导到HTTP页面。

　　关于Robots文件，详细说明如下。

　　(1)特定页面已经无需蜘蛛抓取，可以进行Disallow。

　　(2)某类集中的页面具备一同的URL参数，可以达成批量禁止抓取功能。在操作批量禁止的时候，需要防止误伤，即具备同样URL特点的功能可能并不在禁止的目的之内，无意中被禁止了。

　　关于相同种类特点的URL的一个特殊应用就是批量禁止动态URL的抓取。譬如一个动态发布内容的网站，初始页面都是动态页面，从网站优化角度考虑，这类动态页面全部批量生成了对应的静态页面，如下。

　　http://www.abc.com/?id=1

　　http://www.abc.com/?id=2

　　......

　　(已经批量生成了如下)

　　http://www.abc.com/ 1.html

　　http://www.abc.com/2.html