YandexBot是什么搜索引擎蜘蛛

2024-04-07 分类：网站建设

YandexBot 是俄罗斯搜索引擎 Yandex 的网络爬虫，用于索引网页内容，从而帮助 Yandex 的搜索引擎提供相关的搜索结果。它是 Yandex 服务的重要组成部分，负责收集和分析互联网上的数据，以提供准确和及时的搜索结果。

对于网站管理员和开发者来说，了解YandexBot的工作原理和如何与其交互是非常重要的。例如，通过配置网站的 robots.txt 文件，可以告诉 YandexBot 哪些页面可以被索引，哪些页面应该被排除。这有助于网站管理员更好地控制其在 Yandex 搜索引擎中的表现。

此外，了解 YandexBot 的访问模式也有助于识别潜在的恶意行为或滥用情况。如果发现 YandexBot 的访问模式异常，如频繁访问或请求大量数据，可能需要进行进一步的调查以确保网站的安全和稳定。

总之，YandexBot 是 Yandex 搜索引擎的重要组成部分，对于网站管理员和开发者来说，了解其工作原理和如何与其交互是非常重要的。

我们经常会受到大量的 YandexBot 访问，我们知道 YandexBot 是 Yandex 的搜索引擎的爬虫。

大量的 YandexBot 访问，不仅给服务器造成了非常大的压力，同时也会使正常访客访问网站变慢，影响体验。

基于以上原因，我们不得不限制 YandexBot 的访问，但是需要注意的一点：限制 Yandex 访问会损失 Yandex 带给我们的流量，由于限制了 Yandex 的爬虫索引我们的网站，所以当用户在 Yandex 搜索我们网站的主题词时，不会有任何展示，所以也不会给我们带来任何流量。

如果 Yandex 没有给我们带来任何访客，那我们就屏蔽它吧！

Yandex 支持具有高级功能的 Robots Exclusion 协议。

当抓取一个网站时，Yandex 机器人会加载 robots.txt 文件。如果对该文件的最新请求显示某个网站页面或部分被禁止，机器人就不会索引它们。

Yandex robots.txt 文件的要求

Yandex 机器人可以正确处理 robots.txt，但是需要满足以下要求：

文件大小不超过 500KB。

它是一个名为 "robots "的TXT文件， robots.txt。

该文件位于网站的根目录中。

该文件可供机器人使用：托管网站的服务器以 HTTP 代码回应，状态为 200 OK。检查服务器的响应

如果文件不符合要求，该网站被认为是开放索引的，也就是 Yandex 搜索引擎可以任意访问网页内容。

Yandex 支持从位于一个网站的 robots.txt 文件重定向到位于另一个网站的文件。在这种情况下，目标文件中的指令被考虑在内。这种重定向在移动网站时可能很有用。

Yandex 访问 robots.txt 的一些规则

在 robots.txt 文件中，机器人会检查以 User-agent: 开头的记录，并寻找字符 Yandex（大小写不重要）或 *。如果 User-agent: Yandex 字符串被检测到，User-agent: * 字符串会被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被发现，机器人将被视为具有无限的访问权限。

你可以为 Yandex 机器人输入单独的指令。

例如下面的一些示例：

User-agent: YandexBot # 用于索引爬虫的写法

Disallow: /*id=

User-agent: Yandex # 将会对所有 YandexBot 起效

Disallow: /*sid= # 除了主要的索引机器人

User-agent: * # 对 YandexBot 不会起作用

Disallow: /cgi-bin

根据标准，你应该在每个 User-agent 指令前插入一个空行。＃字符指定了注释。在这个字符之后的所有内容，直到第一个换行，都将被忽略。

robots.txt Disallow 与 Allow 指令

Disallow 指令，使用此指令禁止索引站点部分或单个页面。例子：

包含机密数据的页面。

带有站点搜索结果的页面。

网站流量统计。

重复页面。

各种日志。

数据库服务页面。

下面是 Disallow 指令的示例：

User-agent: Yandex

Disallow: / # 禁止对整个网站进行抓取

User-agent: Yandex

Disallow: /catalogue # 禁止抓取以 /catalogue 开头的页面。

User-agent: Yandex

Disallow: /page? # 禁止抓取含有参数的 URL 的页面

robots.txt Allow 指令

该指令允许索引站点部分或单个页面。下面是示例：

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# 禁止索引任何页面，除了以'/cgi-bin'开头的网页

User-agent: Yandex

Allow: /file.xml

# 允许索引 file.xml 文件

robots.txt 组合指令

相应的用户代理块中的 Allow 和 Disallow 指令会根据 URL 前缀长度（从最短到最长）进行排序，并按顺序应用。如果有几个指令与一个特定的网站页面相匹配，机器人会选择排序列表中的最后一个指令。这样，robots.txt 文件中指令的顺序就不会影响机器人使用它们的方式。

# robots.txt 文件示例:

User-agent: Yandex

Allow: /

Allow: /catalog/auto

Disallow: /catalog

User-agent: Yandex

Allow: /

Disallow: /catalog

Allow: /catalog/auto

# 禁止索引以 '/catalog' 开头的页面

IP 地址屏蔽
我们通过 list crawlers YandexBot 查看到 YandexBot 的 IP 地址，我们直接将这些 IP 加入到黑名单里就可以了，我以 Ubuntu 操作系统为例，如何将 IP 加入到防火墙的黑名单里面：

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我们通过 list crawlers YandexBot 页面查询到的 IP ，直接一个一个的 IP 输入就可以了，一个一行。

好处：直接且迅速。

缺点：可能漏掉一些 YandexBot 的 IP 地址。

通过 User-agent 屏蔽 YandexBot

通过我的这一篇文章：yandex bot user agent，我们可以看到每个 YandexBot 的具体 User-agent，我们在 Nginx 里面可以这样屏蔽具体的 User-agent：

if ($http_user_agent ~* "Yandex")
{
return 403;
}
这样我们就可以通过 User-agent 屏蔽 YandexBot 的目的了。

优点：可以迅速直接的屏蔽 YandexBot。

通过 robots.txt 屏蔽 YandexBot

前面文章我已经具体介绍过如何通过 robots.txt 屏蔽 YandexBot 了，在此不多说，需要的可以看这篇文章：block yandex bot

优点：符合官方的规范要求。

缺点：Yandex 的有些爬虫并不遵守 robots.txt 协议，使用 robots.txt 协议也就无法屏蔽了。

总结

这篇文章使用了三种方式屏蔽 YandexBot，并且介绍了优缺点，总有一种方法适合你。如够你的网站市场在俄罗斯千万不要把它给屏蔽了。

网站栏目：YandexBot是什么搜索引擎蜘蛛
当前地址：https://www.cdcxhl.com/news18/322668.html

成都网站建设公司_创新互联，为您提供网站内链、App开发、用户体验、搜索引擎优化、移动网站建设、域名注册

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容