如何使用 robots.txt 进行 SEO 优化

robots.txt 文件是什么

robots.txt 是一个简单的以 .txt 结尾的文本文件,是搜索引擎 Robot 程序抓取网页时要访问的第一个文件。

robots.txt 文件有什么作用

通过 robots.txt 可以引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大的无用网页,在一定程度上能够节约网站资源。另外,robots.txt 对 SEO 也有重要意义,可以很好地避免重复、相似网页,以及一些关键字权重流失。

robots.txt 文件写法

  1. 内容以 User-agent 开始,包含一行或多行 Disallow 或 Allow 记录;
  2. 在 robots.txt 中可以用 “#” 进行注释

例子:

User-agent: *  # 对所有搜索引擎 Robot 开放
Disallow: /categories/ # 禁止访问 categories 目录下任何内容

关于 robots.txt 文件函数的说明

User-agent

该项的值用于描述搜索引擎 Robot 的名称,至少要有一条 User-agent 记录;如果 User-agent 的值为 *,则表示该协议对所有搜索引擎 Robot 都有效;在 robots.txt 文件中“User-agent: * ”只能有一条,可以同时出现“User-agent: Baiduspider”和“User-agent: Googlebot”的情况。

:常见搜索引擎蜘蛛 Robots 名称

Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com

Disallow

该项的值用于描述不希望被 Robot 访问到的一个 URL,这个 URL 可以是一条完整的路径,也可以是部分的,任何以 Disallow 开头的 URL 均不会被 Robot 访问到;

注意“Disallow: /test”和“Disallow: /test/”的区别。

“Disallow: /test”表示可以禁止的URL包括:“/test、/testabc.html、/test/abc”这三种形式;

“Disallow: /test/”则允许 Robot 访问:“/test、/testabc.html”,禁止访问:“/test/abc”这种形式。

如果 Disallow 记录的值为空,即“Disallow:”格式,则说明该网站的所有内容可以被任何搜索引擎 Robot 抓取;在 robots.txt 文件,如果有声明 User-agent ,至少要有一条 Disallow 记录。

Allow

该项和Disallow对立,表示允许搜索引擎Robot访问指定内容。

robots.txt 文件用法实例

  1. 允许所有搜索引擎Robot访问

    User-agent: *
    Disallow:
    

    或者robots.txt文件为空,什么也不写,也能达到同样的效果。

  2. 禁止所有搜索引擎Robot访问网站的任何内容

    User-agent: *
    Disallow: /
    
  3. 禁止所有搜索引擎Robot访问网站的指定内容(如下例中的aaa、bbb、ccc目录)

    User-agent: *
    Disallow: /aaa/
    Disallow: /bbb/
    Disallow: /ccc/
    
  4. 禁止指定搜索引擎 Robot 访问如下例中的Google机器人:Googlebot)

    User-agent: Googlebot
    Disallow: /
    
  5. 只允许指定搜索引擎Robot访问(如下例中的百度机器人:Baiduspider)

    User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /
    

参考链接:

  1. robots.txt文件配置和使用方法详解
打开微信扫一扫或者输入“代码者”即可订阅博客
comments powered by Disqus