搜索引擎蜘蛛爬行规律探秘(一)蜘蛛如何抓取链接

2021-10-23 分类：网站建设

搜索引擎蜘蛛，对于我们来说非常神秘，本文的配图使用蜘蛛侠的原因就在于此。当然我们也不是百度的也不是Google的，所以只能说探秘，而不是揭秘。本文内容比较简单，只是给不知道的朋友一个分享的途径，高手和牛人请绕行吧。

传统意义上，我们感觉搜索引擎蜘蛛(spider)爬行，应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接，顺着这个链接爬行到一个页面，然后再顺着这个页面里面的链接继续爬……这个类似于蜘蛛网，也类似于一棵大树。这个理论虽然正确，但是不准确。

搜索引擎内部是有一个网址索引库的，所以搜索引擎蜘蛛是从搜索引擎的服务器出发，顺着搜索引擎已有的网址爬行一个网页，并将网页内容抓取回来。页面采集回来之后，搜索引擎会对其进行分析，将内容和链接分开，内容暂时先不说。分析出来链接之后，搜索引擎并不会马上去派蜘蛛进行抓取，而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算，最后放入网址索引库。进入了网址索引库之后，才会有蜘蛛去抓取。

也就是如果出现了某个网页的外链，并不一定会立刻有蜘蛛去抓取这个页面，而是会有一个分析计算的过程。即便是这个外链在蜘蛛抓取之后被删除了，这个链接也有可能已经被搜索引擎记录，以后还有抓取的可能。而且下次如果蜘蛛再去抓取这个外链所在页面，发现链接不存在了，或者外链所在页面出现了404，那么只是减少了这个外链的权重，应该不会去网址索引库删除这个链接。

所以说已经不存在的页面上的链接，也有作用。今天就分享这些，以后继续跟大家分享我自己分析的内容，如果有不准确的地方，请大家批评指正。

分享标题：搜索引擎蜘蛛爬行规律探秘(一)蜘蛛如何抓取链接
URL链接：https://www.cdcxhl.com/news17/132617.html

成都网站建设公司_创新互联，为您提供网站策划、云服务器、手机网站建设、网站改版、App开发、网站收录

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容