2022-06-17 分类: 网站建设
Robots协议(蜘蛛人协议、机器人协议)告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
什么是robots.txt文件?
robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。这下知道这个文件对于网站的重要性了吧。
robots.txt文件有什么具体作用?
1、屏蔽网站内的死链接。(网站改版后出现的死链、网站被攻击时来不及删除的目录文件和链接)
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。(例如网站后台的登陆地址)
robots.txt文件怎样写?
创新互联小编首先先给大家介绍几个robots中用到的名词:
(1)User-agent:意思是定义搜索引擎类型
因为搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;SOSO蜘蛛:Sosospider;有道蜘蛛:YoudaoBot;搜狗蜘蛛:Sogou News Spider
一般没有特殊要求的话,正确写法是:User-agent: * 意思是允许所有搜索引擎来抓取。这是robots.txt文件中第一行的写法。
(2)Disallow:意思是定义禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。它的正确的写法如下:
Disallow: / 禁止蜘蛛抓取整站(一定不能这么写,这样会让所有搜索引擎不来抓取你的网站内容)
Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。
Disallow: /page/ 禁止抓取网站中带page的文件夹。
Disallow: /*?* 禁止抓取网站中的所有动态路径。
Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。
Disallow: /*.jpg$ 禁止抓取网站中所有jpg图片
(3)、Allow:意思是定义允许抓取收录地址
这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许,因此大家没必要写上。
(4)、常用的一些语法符号
/ 如果只是一个单个/,搜索引擎会认为是根目录
* 是所有的意思;例如:Disallow: /*.jpg$ 是禁止抓取网站中所有jpg图片
$ 是结束符
以上内容就是成都网站建设小编为大家分享的robots.txt文件的定义、作用以及正确的写法,这是SEO一项非常重要的优化操作,大家一定要熟练掌握!
如没特殊注明,文章均为创新互联成都网站建设原创,转载请注明:创新互联www.cdcxhl.com
新闻名称:Robots是什么?对于网站优化有哪些好处?
文章链接:https://www.cdcxhl.com/news/168505.html
成都网站建设公司_创新互联,为您提供做网站、建站公司、商城网站、搜索引擎优化、全网营销推广、响应式网站
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容