2022-07-11 分类: 网站建设
今天成都网站设计--创新互联小编说说跟踪链接
我了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互连接的网站及页面组成。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上的所有页面。
最简单的爬行便利策略分为两种,一种是深度优先,另一种是广度优先。所谓的深度优先,指的蜘蛛沿着发现的链接一直往向前爬行,直到前面在也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
如图一所示,蜘蛛跟踪链接,从A页面爬行到A1,A2,A3,A4,到A4页面后。已经冒雨其它页面可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到B1,B2,B3.B4.在深度优先策略中,蜘蛛一直爬到无法再向前,才返回爬另一条线。
广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层的链接都爬个遍,然后在沿着第二层页面上发现的链接爬向第三层页面。
成都网站设计--创新互联小编发张图给大家看看,如下图所示,蜘蛛从A页面顺着链接爬行到A1,B1,C1页面,直到A页面上的所有链接都爬行完,然后再从A1 页面发现的下一层链接,爬行A2 A3..........
从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的世界,都能爬完整个互联网。在实际的工作中,蜘蛛的带宽资源,时间都不是无限的,也不可能爬完所有的页面。实际上大的搜索引擎也只爬行和收录了互联网的一小部分。深度优先和广度优先通常是混合使用的,这样即可以照顾到尽量多的网站(广度优先)也能照顾到一部分网站的内页(深度优先),同时也会考虑页面权重,网站规模。外链,更新等因素。网站建设好后要做的事情很多,要学的东西也很多,大家好好的看看我写的文章。
网页题目:跟踪链接
URL分享:https://www.cdcxhl.com/news/176377.html
成都网站建设公司_创新互联,为您提供电子商务、微信公众号、Google、品牌网站制作、网站内链、网站改版
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容