跟踪链接

2022-07-11    分类: 网站建设

今天成都网站设计--创新互联小编说说跟踪链接

我了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互连接的网站及页面组成。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上的所有页面。

最简单的爬行便利策略分为两种,一种是深度优先,另一种是广度优先。所谓的深度优先,指的蜘蛛沿着发现的链接一直往向前爬行,直到前面在也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

如图一所示,蜘蛛跟踪链接,从A页面爬行到A1,A2,A3,A4,到A4页面后。已经冒雨其它页面可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到B1,B2,B3.B4.在深度优先策略中,蜘蛛一直爬到无法再向前,才返回爬另一条线。

广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层的链接都爬个遍,然后在沿着第二层页面上发现的链接爬向第三层页面。

成都网站设计--创新互联小编发张图给大家看看,如下图所示,蜘蛛从A页面顺着链接爬行到A1,B1,C1页面,直到A页面上的所有链接都爬行完,然后再从A1 页面发现的下一层链接,爬行A2 A3..........

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的世界,都能爬完整个互联网。在实际的工作中,蜘蛛的带宽资源,时间都不是无限的,也不可能爬完所有的页面。实际上大的搜索引擎也只爬行和收录了互联网的一小部分。深度优先和广度优先通常是混合使用的,这样即可以照顾到尽量多的网站(广度优先)也能照顾到一部分网站的内页(深度优先),同时也会考虑页面权重,网站规模。外链,更新等因素。网站建设好后要做的事情很多,要学的东西也很多,大家好好的看看我写的文章。

文章题目:跟踪链接
URL标题:https://www.cdcxhl.com/news27/176377.html

成都网站建设公司_创新互联,为您提供网站收录域名注册网站维护微信小程序企业网站制作网站设计

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都app开发公司