账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
0
看完秒懂robots.txt写法和注意事项
2019-01-07 17:52:56 浏览:298次 【

robots.txt直接放在网站根目录下,是蜘蛛访问网站时,第一个抓取的文件。robots.txt是告诉蜘蛛网站的哪些文件允许抓取,哪些文件不允许抓取,甚至可以指定特定的蜘蛛能不能抓取特定的文件。没有抓取就没有收录,没有收录就没有排名。所以作为第一蜘蛛访问的文件,写好robots.txt是很重要的,写好robots.txt后,一定要再检查一两遍,以防出错。这里总结下robots.txt写法,让你看完秒懂robots.txt写法和注意事项

一.robots.txt具体作用

1.对搜索引擎做出规定,抓取或者不抓取。

2.由于有些信息规定了不让抓取,所以可以保护到一些必要的信息,比如:网站后台,用户信息。

3.节省搜索引擎抓取资源。

二.robots.txt规则

1.User-agent,用于告诉识别蜘蛛类型。比如,User-agent: Baiduspider 就是指百度蜘蛛。

各类蜘蛛列举如下:

百度蜘蛛:Baiduspider

谷歌机器人:GoogleBot

360蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider

雅虎蜘蛛:“Yahoo! Slurp China” 或者 Yahoo!

有道蜘蛛:Youdaobot 或者 Yodaobot

Soso蜘蛛:Sosospider

2.Allow,允许蜘蛛抓取指定目录或文件,默认是允许抓取所有。

3.Disallow,不允许蜘蛛抓取指定目录或文件。

4.通配符,“*”,匹配0或多个任意字符。

5.终止符,“$”,可以匹配以指定字符结尾的字符。

举个例子:下面是一个wordpress程序的robots.txt

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /*.js$

Disallow: /*?*

Sitemap: http://www.leheseo.com/sitemap.xml

解释:

User-agent: *:对所有搜索引擎都使用下面的规则。

Disallow: /wp-admin/:不让蜘蛛抓取根目录下的wp-admin文件夹。

Disallow: /*.js$:不让蜘蛛抓取根目录下所有的js文件。

Disallow: /*?*:不抓取所有的动态链接。

Sitemap: http://www.leheseo.com/sitemap.xml:给蜘蛛提供网站地图,方便蜘蛛抓取网站内容。

三.robots.txt注意事项

1.如果你希望搜索引擎收录网站上所有的内容,那么就不要建立robots.txt文件。

2.如果同时存在动态和静态链接,那么建议屏蔽动态链接。

3.robots.txt只能是屏蔽站内文件的,对站外文件没有屏蔽功能。

4.User-agent,Allow,Disallow,Sitemap的首字母都是大写的。

5.User-agent,Allow,Disallow,Sitemap的冒号后面都是有空格的,没有写空格直接写接下来的内容会出错。

6.网站通常会屏蔽搜索结果页面。因为搜索结果页和正常展示的内容页相比,标题和内容上相同的,而这两个页面链接是不同的。那搜索引擎该将这篇文章归属于哪个内链呢?这样就会造成内链之间相互竞争,造成内部资源损耗。

比如上面举的例子,那个wordpress程序,在没有设置伪静态,还是动态链接的时候,搜索结果页面链接都包含有/?s=,而 标题和内容 与 正常展示的动态链接内容页重复,可以通过Disallow: /?=*来屏蔽搜索结果页面。

而现在那个wordpress程序已经设置了伪静态,也设置了Disallow: /*?*,Disallow: /*?*本身就包含了Disallow: /?=*,所以Disallow: /?=*这句写不写都没有关系

7.建议屏蔽js文件。Disallow: /*.js$,以 .js 结尾的路径统统被屏蔽,这样就屏蔽了js文件。

8.路径是区分大小写的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一样的。

9.robots.txt会暴露网站相关目录,写robots.txt时要考虑到这一点。

10.有些seo会将文件直接备份在服务器中,文件是 .zip 格式,然后在robots.txt中屏蔽。个人不建议这样,这就是明显告诉人家你的备份文件位置。建议文件和数据都备份到本地。

11.一些特殊规则对比:

①Disallow: /和Disallow: / ab (/后面有个空格,再有ab)是一样的,/后面多了个空格,蜘蛛之认空格前面那一段,就是Disallow: /,所以两个都是屏蔽整站的。

②Disallow: /ab和Disallow: /ab*是一样的。比如两个都能屏蔽http://域名/ab,http://域名/abc,http://域名/abcd。

③Disallow: /ab/和Disallow: /ab是不一样的。很明显,Disallow: /ab范围更广,包含了Disallow: /ab/。因为Disallow: /ab/只能屏蔽http://域名/ab/,http://域名/ab/....这样的路径,也就是只能屏蔽ab目录和ab目录下的文件不被蜘蛛抓取。

四.验证robots.txt文件的正确性和是否生效

当我们写好了robots.txt文件后,怎么确定文件的正确性呢?上传到服务器根目录后,怎么判断robots.txt文件是否生效了呢?这时我们可以借助百度资源平台Robots。比如输入乐呵SEO测试服网址,得到如下结果。

验证robots.txt文件是否生效

检测到robots.txt文件的内容

验证robots.txt文件的正确性

结果证明,http://wordpress.leheseo.com/robots.txt这个文件没有语法错误,并且已经生效了。

若是想测试某一个目录或者文件是否被屏蔽了,百度也是提供了工具的。如下图,由于 http://wordpress.leheseo.com 是测试服,我屏蔽了所有文件。所以无论我输入根目录下的任何目录或者任何文件,都是检测不到的,也就是说蜘蛛是抓取不到的。

输入了后台目录wp-admin:

后台目录检测结果:

经过测试,其他文件和目录页也检测不到,所以这个功能还是很好用的。

更多robots.txt内容,可以参考百度提供的文档哦。https://ziyuan.baidu.com/college/courseinfo?id=267&;page=12

robots.txt写法和注意事项就总结到这里了,内容相对细致,结合了例子讲解会很容易看懂,希望对您有所帮助咯。

原创文章,作者:乐呵seo,如若转载,请注明出处:http://www.leheseo.com/seojiaocheng/282.html

全部评论(0)
  • 做了好几年的广告投放,很少对5个搜索引擎广告效果做一个总结和梳理。它们分别是百度竞价、360竞价、搜狗竞价、神马搜索、字节巨量广告。本篇谈下我的一些个人体验。1:百度我第一次了解百度竞价是2015年10月。当时..

    iss浏览:783次 评论:0
    2021-08-17 23:17
  • 讲到微博, 大家都不陌生,微博是继QQ、微信之后的中国第三大社交平台。关于微博引流的方式有很多,比如:热榜、超话、博文头条、更多兴趣用户推广、指定账号广、微活动、 大 V 转发、批量群发,微博关键词搜索、微..

    iss浏览:555次 评论:0
    2021-06-20 23:02
  • 我认为百分之90的小微创业者都需要学习百度竞价(SEM),当我们掌握了百度竞价的技术,根本就不会缺精准的客户,因为在百度搜索的需求,比在任何平台的流量都来的精准。本文会是一篇保姆级的教程,从百度竞价开户搭建..

    iss浏览:516次 评论:0
    2021-06-09 14:58
  • 关键词关键词,用拆词来说是关键+词。很多人并没有明白关键词真正意思,即这个【关键】很重要。很多人选词就没有找到关键词,所以想获取精准流量也是不可能的。关键词理解和分析,确是是需要大量实操经验的。要想入..

    iss浏览:555次 评论:0
    2021-06-06 20:54
  • 首先,开源软件和免费软件是两个概念:开源软件是指公开源代码的软件。开源软件在发行的时候会附上软件的源代码,并授权允许用户更改、传播或者二次开发。免费软件就是免费提供给用户使用的软件,但是在免费的同时,..

    ad5浏览:693次 评论:0
    2020-04-17 15:07
  • 近期和朋友聊天,说起她的一个困惑,她们公司做的一个抖音号,是以热点为竞争核心的,这样的定位虽说有些出圈困难,但好在是成本低,博概率。那么问题就来了,朋友说,以前总是看到很多热搜,直到自己做了,才发现想..

    zzw浏览:732次 评论:0
    2020-03-25 01:40
  • 平常人们使用浏览器搜索资料时,打开一个链接后发现页面显示“404 找不到页面”,心里难免有些失望。如今在这个浏览器的最新版本中,集成“网站时光机”(Wayback Machine)技术,可找回存档的网页。网友:再也不用担..

    duoaili浏览:938次 评论:0
    2020-03-10 00:22
  • 安全一直以来都是各大站长们比较关心的问题,一个网站,如果没有一个安全的系统环境,做得再好,也没什么意义,一旦遭受攻击,损失就会非常大。因此,学会防范黑客攻击,保护好自己的网站,是必要的。本人从学习建站..

    zzw浏览:776次 评论:0
    2020-01-15 16:21
  • 有句话说的好“有事没事搜一搜”,当工业品买家需要找产品的时候第一动作就是先百度一下。正是因为买家的习惯养成,成就百度搜索的价值提升,从而进入百度竞争也日益激励,特别是对中小企业来讲成本颇高。那如何免费..

    ad5浏览:915次 评论:0
    2019-12-28 17:40
  • 互联网发展至今,分类信息仍然是网民重要的需求之一,伴随着“互联网+”的发展,分类信息的重要性越发突出,虽然互联网的流量被各类型的平台所瓜分,但通过搜索引获取分类信息仍然是网民重要的渠道之一,这就为我们..

    zzw浏览:703次 评论:0
    2019-12-16 17:46
作者专栏
  • cqbbk

    注册时间:2026-01-02 21:47

  • cqyxad

    注册时间:2026-01-02 21:47

  • cqad

    注册时间:2026-01-02 21:47

  • yxad

    注册时间:2026-01-02 21:47

  • yxabc

    注册时间:2026-01-02 21:47

Copyright@ all rights reserved
闽ICP备2025087700号-1
Powered by qibosoft Code © 2018 qibosoft
联系电话:020-28998648 @广州齐博网络科技有限公司