robots文件-【知也SEO工具第七期】_SEO工具_相关工具_从0学SEO-小白入门建站教程工具-搜索引擎优化实战派|知也SEO

robots-网站跟爬虫间的协议：

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面，robots.txt一般都是配合着网站地图（sitemap）使用。

robots的作用是用来告诉搜索引擎机器人不索引网站的哪些内容。robots.txt文件就是一个普通的文本文件，名称用小写，一般放在网站的根目录下。当一个搜索引擎机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt 是网站里的一个文件，它告诉搜索引擎抓取工具（蜘蛛）禁止或允许抓取网站的哪些内容。主流搜索引擎（包括 Google、Bing 和 Yahoo）都能够识别并尊重 robots.txt的要求。

robots文件都是放在网站的根目录下面，如需查看网站是否有robots文件，请访问此网站的网址：域名/robots.txt，譬如https://xxx.com/robots.txt, 比如本站的robots文件，https://www.zhiyeseo.com/robots.txt

下载地址：https://pan.baidu.com/s/1gcU5rvDkbcNUHLreQwH5WQ 验证码：ssf9

robots文件语法：

User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*，则该协议对任何机器人均有效。

Disallow: 该项的值用于描述不希望被访问到的一个UrL，一个目录或者整个网站。以Disallow 开头的UrL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空，说明该网站的所有部分都允许被访问。

robots.txt文件语法教程编辑：

用几个最常见的情况，直接举例说明：

1. 允许所有搜索引擎收录本站：robots.txt为空就可以，什么都不要写。

也可以

User-agent: *

Allow: /

2. 禁止所有搜索引擎收录网站的某些目录：

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /temp/ *禁止收录temp目录

3. 禁止某个搜索引擎收录本站，例如禁止百度：

User-agent: Baiduspider

Disallow: /

4. 禁止所有搜索引擎收录本站：

User-agent: *

Disallow: /

5. 上文提到可以配合网站地图sitemap，让爬虫可以更快的检索我们的链接。我们可以加入sitemap.xml路径,例如：https://xxx.com/sitemap.xml 比如本站的sitemap.xml文件，https://www.zhiyeseo.com/sitemap.xml https://www.zhiyeseo.com/sitemap.txt （百度专用）

常见robots名字：

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler/

inktomi蜘蛛： slurp

小结：绝大多数的搜索引擎机器人都遵守robots.txt的规则，最后需要注意，robots.txt文件名必须是小写，而且放在网站根目录。

知也网站运营SEO|SEM

robots文件-【知也SEO工具第七期】

相关推荐

知也SEO-博主深谷

知也SEO时间线

从0网站运营-帮助上线运营

指导从0建站-提供各类模板

知也SEO收徒-学生、应届生

热门专题

从0学SEO-小白学SEO-搜索引擎优化-SEO博客|知也SEO

知也SEO运营专注小白SEO优化入门教程，分享免费的网站建设方法_优化排名教程。帮助小白站长学习了解网站关键词快速排名百度首页，致力于网站排名流量提升策略...

切换注册登录

切换登录注册