如何设置robots.txt禁止或只允许搜索引擎抓取特定目录

2021-11-23    分类: 网站建设

搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。
注意:网站的robots.txt文件一定要存放在网站的根目录。
搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。

注意:网站的robots.txt文件一定要存放在网站的根目录。

robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /

禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/

允许访问特定目录中的部分url
User-agent: *
allow: /158
allow: /joke

禁止访问网站中所有的动态页面


User-agent: *
Disallow: /**


仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

1.屏蔽404页面
Disallow: /404.html

2.屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
Disallow: /158/

3.屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX123
/123.html
我们要屏掉/XXX123 页面,代码如下:
Disallow: /XXX

4.告诉搜索引擎你的sitemap.xml地址
具体代码如下:
Sitemap: 你的sitemap地址ap: 你的sitemap地址

当前题目:如何设置robots.txt禁止或只允许搜索引擎抓取特定目录
文章转载:https://www.cdcxhl.com/news33/137133.html

成都网站建设公司_创新互联,为您提供网站设计网站维护网站导航网站收录品牌网站设计自适应网站

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

猜你还喜欢下面的内容

成都定制网站建设

网站建设知识

同城分类信息