YandexBot是什么搜索引擎蜘蛛

2024-04-07    分类: 网站建设

YandexBot 是俄罗斯搜索引擎 Yandex 的网络爬虫,用于索引网页内容,从而帮助 Yandex 的搜索引擎提供相关的搜索结果。它是 Yandex 服务的重要组成部分,负责收集和分析互联网上的数据,以提供准确和及时的搜索结果。

对于网站管理员和开发者来说,了解YandexBot的工作原理和如何与其交互是非常重要的。例如,通过配置网站的 robots.txt 文件,可以告诉 YandexBot 哪些页面可以被索引,哪些页面应该被排除。这有助于网站管理员更好地控制其在 Yandex 搜索引擎中的表现。

此外,了解 YandexBot 的访问模式也有助于识别潜在的恶意行为或滥用情况。如果发现 YandexBot 的访问模式异常,如频繁访问或请求大量数据,可能需要进行进一步的调查以确保网站的安全和稳定。

总之,YandexBot 是 Yandex 搜索引擎的重要组成部分,对于网站管理员和开发者来说,了解其工作原理和如何与其交互是非常重要的。

我们经常会受到大量的 YandexBot 访问,我们知道 YandexBot 是 Yandex 的搜索引擎的爬虫。

大量的 YandexBot 访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。

基于以上原因,我们不得不限制 YandexBot 的访问,但是需要注意的一点:限制 Yandex 访问会损失 Yandex 带给我们的流量,由于限制了 Yandex 的爬虫索引我们的网站,所以当用户在 Yandex 搜索我们网站的主题词时,不会有任何展示,所以也不会给我们带来任何流量。

如果 Yandex 没有给我们带来任何访客,那我们就屏蔽它吧!

Yandex 支持具有高级功能的 Robots Exclusion 协议。

当抓取一个网站时,Yandex 机器人会加载 robots.txt 文件。如果对该文件的最新请求显示某个网站页面或部分被禁止,机器人就不会索引它们。

Yandex robots.txt 文件的要求

Yandex 机器人可以正确处理 robots.txt,但是需要满足以下要求:

文件大小不超过 500KB。

它是一个名为 "robots "的TXT文件, robots.txt。

该文件位于网站的根目录中。

该文件可供机器人使用:托管网站的服务器以 HTTP 代码回应,状态为 200 OK。检查服务器的响应

如果文件不符合要求,该网站被认为是开放索引的,也就是 Yandex 搜索引擎可以任意访问网页内容。

Yandex 支持从位于一个网站的 robots.txt 文件重定向到位于另一个网站的文件。在这种情况下,目标文件中的指令被考虑在内。这种重定向在移动网站时可能很有用。

Yandex 访问 robots.txt 的一些规则

在 robots.txt 文件中,机器人会检查以 User-agent: 开头的记录,并寻找字符 Yandex(大小写不重要)或 *。如果 User-agent: Yandex 字符串被检测到,User-agent: * 字符串会被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被发现,机器人将被视为具有无限的访问权限。

你可以为 Yandex 机器人输入单独的指令。

例如下面的一些示例:

User-agent: YandexBot # 用于索引爬虫的写法

Disallow: /*id=

User-agent: Yandex # 将会对所有 YandexBot 起效

Disallow: /*sid= # 除了主要的索引机器人

User-agent: * # 对 YandexBot 不会起作用

Disallow: /cgi-bin 

根据标准,你应该在每个 User-agent 指令前插入一个空行。#字符指定了注释。在这个字符之后的所有内容,直到第一个换行,都将被忽略。

robots.txt Disallow 与 Allow 指令

Disallow 指令,使用此指令禁止索引站点部分或单个页面。例子:

包含机密数据的页面。

带有站点搜索结果的页面。

网站流量统计。

重复页面。

各种日志。

数据库服务页面。

下面是 Disallow 指令的示例:

User-agent: Yandex

Disallow: / # 禁止对整个网站进行抓取

User-agent: Yandex

Disallow: /catalogue # 禁止抓取以 /catalogue 开头的页面。

User-agent: Yandex

Disallow: /page? # 禁止抓取含有参数的 URL 的页面

robots.txt Allow 指令

该指令允许索引站点部分或单个页面。下面是示例:

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# 禁止索引任何页面,除了以'/cgi-bin'开头的网页

User-agent: Yandex

Allow: /file.xml

# 允许索引 file.xml 文件

robots.txt 组合指令

相应的用户代理块中的 Allow 和 Disallow 指令会根据 URL 前缀长度(从最短到最长)进行排序,并按顺序应用。如果有几个指令与一个特定的网站页面相匹配,机器人会选择排序列表中的最后一个指令。这样,robots.txt 文件中指令的顺序就不会影响机器人使用它们的方式。

# robots.txt 文件示例:

User-agent: Yandex

Allow: /

Allow: /catalog/auto

Disallow: /catalog


User-agent: Yandex

Allow: /

Disallow: /catalog

Allow: /catalog/auto

# 禁止索引以 '/catalog' 开头的页面

IP 地址屏蔽
我们通过 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我们直接将这些 IP 加入到黑名单里就可以了,我以 Ubuntu 操作系统为例,如何将 IP 加入到防火墙的黑名单里面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我们通过 list crawlers YandexBot 页面查询到的 IP ,直接一个一个的 IP 输入就可以了,一个一行。

好处:直接且迅速。

缺点:可能漏掉一些 YandexBot 的 IP 地址。

通过 User-agent 屏蔽 YandexBot

通过我的这一篇文章:yandex bot user agent,我们可以看到每个 YandexBot 的具体 User-agent,我们在 Nginx 里面可以这样屏蔽具体的 User-agent:

if ($http_user_agent ~* "Yandex") 

    return 403; 
}
这样我们就可以通过 User-agent 屏蔽 YandexBot 的目的了。

优点:可以迅速直接的屏蔽 YandexBot。

通过 robots.txt 屏蔽 YandexBot

前面文章我已经具体介绍过如何通过 robots.txt 屏蔽 YandexBot 了,在此不多说,需要的可以看这篇文章:block yandex bot

优点:符合官方的规范要求。

缺点:Yandex 的有些爬虫并不遵守 robots.txt 协议,使用 robots.txt 协议也就无法屏蔽了。

总结

这篇文章使用了三种方式屏蔽 YandexBot,并且介绍了优缺点,总有一种方法适合你。如够你的网站市场在俄罗斯千万不要把它给屏蔽了。

网站栏目:YandexBot是什么搜索引擎蜘蛛
当前地址:https://www.cdcxhl.com/news18/322668.html

成都网站建设公司_创新互联,为您提供网站内链App开发用户体验搜索引擎优化移动网站建设域名注册

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

绵阳服务器托管