Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。下面是Robots文件写法及文件用法。 一、文件写法 Useragent:这里的代表的所有的搜索引擎种类,是一个通配符 Disallow:admin这里定义是禁止爬寻admin目录下面的目录 Disallow:require这里定义是禁止爬寻require目录下面的目录 Disallow:ABC这里定义是禁止爬寻ABC目录下面的目录 Disallow:cgibin。htm禁止访问cgibin目录下的所有以。htm为后缀的URL(包含子目录)。 Disallow:?禁止访问网站中所有包含问号(?)的网址 Disallow:。jpg禁止抓取网页所有的。jpg格式的图片 Disallow:abadc。html禁止爬取ab文件夹下面的adc。html文件。 Allow:cgibin这里定义是允许爬寻cgibin目录下面的目录 Allow:tmp这里定义是允许爬寻tmp的整个目录 Allow:。htm仅允许访问以。htm为后缀的URL。 Allow:。gif允许抓取网页和gif格式图片 Sitemap:网站地图告诉爬虫这个页面是网站地图 二、文件用法 例1。禁止所有搜索引擎访问网站的任何部分 Useragent: Disallow: 实例分析:淘宝网的Robots。txt文件 Useragent:Baiduspider Disallow: Useragent:baiduspider Disallow: 很显然淘宝不允许百度的机器人访问其网站下其所有的目录。 例2。允许所有的robot访问(或者也可以建一个空文件robots。txtfile) Useragent: Allow: 例3。禁止某个搜索引擎的访问 Useragent:BadBot Disallow: 例4。允许某个搜索引擎的访问 Useragent:Baiduspider allow: 例5。一个简单例子 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 需要注意的是对每一个目录必须分开声明,而不要写成Disallow:cgibintmp。 Useragent:后的具有特殊的含义,代表anyrobot,所以在该文件中不能有Disallow:tmporDisallow:。gif这样的记录出现。 Useragent: Disallow:cgibin Disallow:tmp Disallow:joe Robots特殊参数: 允许Googlebot: 如果您要拦截除Googlebot以外的所有漫游器不能访问您的网页,可以使用下列语法: Useragent: Disallow: Useragent:Googlebot Disallow: Googlebot跟随指向它自己的行,而不是指向所有漫游器的行。 Allow扩展名: Googlebot可识别称为Allow的robots。txt标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。Allow行的作用原理完全与Disallow行一样。只需列出您要允许的目录或页面即可。 您也可以同时使用Disallow和Allow。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目: Useragent:Googlebot Allow:folder1myfile。html Disallow:folder1 这些条目将拦截folder1目录内除myfile。html之外的所有页面。 如果您要拦截Googlebot并允许Google的另一个漫游器(如GooglebotMobile),可使用Allow规则允许该漫游器的访问。例如: Useragent:Googlebot Disallow: Useragent:GooglebotMobile Allow: 使用号匹配字符序列: 您可使用星号()来匹配字符序列。例如,要拦截对所有以private开头的子目录的访问,可使用下列条目:UserAgent:Googlebot Disallow:private 要拦截对所有包含问号(?)的网址的访问,可使用下列条目: Useragent: Disallow:? 使用匹配网址的结束字符 您可使用字符指定与网址的结束字符进行匹配。例如,要拦截以。asp结尾的网址,可使用下列条目:Useragent:Googlebot Disallow:。asp 您可将此模式匹配与Allow指令配合使用。例如,如果?表示一个会话ID,您可排除所有包含该ID的网址,确保Googlebot不会抓取重复的网页。但是,以?结尾的网址可能是您要包含的网页版本。在此情况下,可对robots。txt文件进行如下设置: Useragent: Allow:? Disallow:? Disallow:? 一行将拦截包含?的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号(?),而后又是任意字符串的网址)。 Allow:?一行将允许包含任何以?结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号(?),问号之后没有任何字符的网址)。 三、Robots协议举例 禁止所有机器人访问 Useragent: Disallow: 允许所有机器人访问 Useragent: Disallow: 禁止特定机器人访问 Useragent:BadBot Disallow: 允许特定机器人访问 Useragent:GoodBot Disallow: 禁止访问特定目录 Useragent: Disallow:images 仅允许访问特定目录 Useragent: Allow:images Disallow: 禁止访问特定文件 Useragent: Disallow:。html 仅允许访问特定文件 Useragent: Allow:。html Disallow: 尽管robots。txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots。txt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。文萌新seo