robots-网站跟爬虫间的协议:
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面,robots.txt一般都是配合着网站地图(sitemap)使用。
robots的作用是用来告诉搜索引擎机器人不索引网站的哪些内容。robots.txt文件就是一个普通的文本文件,名称用小写,一般放在网站的根目录下。当一个搜索引擎机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt 是网站里的一个文件,它告诉搜索引擎抓取工具(蜘蛛)禁止或允许抓取网站的哪些内容。主流搜索引擎(包括 Google、Bing 和 Yahoo)都能够识别并尊重 robots.txt的要求。
robots文件都是放在网站的根目录下面,如需查看网站是否有robots文件,请访问此网站的网址:域名/robots.txt,譬如https://xxx.com/robots.txt, 比如本站的robots文件,https://www.zhiyeseo.com/robots.txt
下载地址:https://pan.baidu.com/s/1gcU5rvDkbcNUHLreQwH5WQ 验证码:ssf9
robots文件语法:
User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。
Disallow: 该项的值用于描述不希望被访问到的一个UrL,一个目录或者整个网站。以Disallow 开头的UrL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问。
robots.txt文件语法教程编辑:
用几个最常见的情况,直接举例说明:
1. 允许所有搜索引擎收录本站:robots.txt为空就可以,什么都不要写。
也可以
User-agent: *
Allow: /
2. 禁止所有搜索引擎收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /temp/ *禁止收录temp目录
3. 禁止某个搜索引擎收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有搜索引擎收录本站:
User-agent: *
Disallow: /
5. 上文提到可以配合网站地图sitemap,让爬虫可以更快的检索我们的链接。我们可以加入sitemap.xml路径,例如:https://xxx.com/sitemap.xml 比如本站的sitemap.xml文件,https://www.zhiyeseo.com/sitemap.xml https://www.zhiyeseo.com/sitemap.txt (百度专用)
常见robots名字:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
小结:绝大多数的搜索引擎机器人都遵守robots.txt的规则,最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录。