2021-07-05 分类: 网站建设
上面已经介绍了搜索引擎收录页面的流程及原理。然而,在互联网数以亿计的页面中,搜索
引擎怎样才能从中抓取到更多相对重要的页面呢?这就涉及搜索引擎的页面收录方式。
页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出更多
相对重要的信息。页面收录方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取
策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留
更长的时间,收录的页面数自然也就更多。因此,加深对搜索引擎页面收录方式的认识,有利于
为网站建立友好的结构,提高页面被收录的数量。
常见的搜索引擎收录页面的方式主要有广度优先、深度优先及用户提交三种,接下来将详细
介绍这三种页面收录方式及各自的优缺点。
●广度优先
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页
面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。
因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例
如,在首页上推荐一些热门产品或者内容)。反过来,通过广度优先的抓取方式,搜索引擎就可
以优先抓取到网站制作中相对重要的页面。
我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页出发,抓取首页上所有链
接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓
取下一层的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出链接,从而抓取深层页
面,直至满足了某个设定的条件后才停止抓取进程,如图2-3所示。
图2-3广度优先抓取流程
●深度优先
与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层
页面中的某一个链接从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面,
再跟踪其另一链接继续向深层页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中
较为隐蔽、冷门的页面,这样才能满足更多用户的需求。
我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的首页,并提取首页中的链
接;再沿着其中的一个链接抓取到页面1-1,同时提取其中的链接;接着,沿着页面1_1中的一个
链接A—1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-l继续抓取更深一
层的页面。这样递归地执行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到
首页继续抓取,如图2-4所示。
图2 4深度优先抓取流程
●用户提交
为了抓取到更多的网页,搜索引擎还允许站管理员主动提交页面。网站管理员只需把刚站
中页面URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站
中的页面进行抓取及更新。
这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率及质量;而对于
网站本身来说,也大大提高了网站页面被收录的数量(目Google及Yahoo!都支持这种页面抓取
方式)。
为了提高抓取页面的效率及质量,搜索引擎会结合多种方式去抓取页面。例如,先使用广度
优先的方式,把抓取范围铺得尽可能宽,获取到尽可能多的重要页面;再使用深度优先的方式,
抓取更多隐蔽的页面;最后,结合用户提交的信息,抓取那些被遗漏的页面。
本文由上海专业网站建设公司创新互联(www.cdcxhl.com )
网站名称:在网站建设推广中搜索引擎对页面的收录方式是怎么样的
分享路径:https://www.cdcxhl.com/news/118958.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有网站建设等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容