什么是文件匹配?

2022-07-16    分类: 网站建设

成都网站建设--创新互联小编说说 什么是文件匹配?

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,成都网站建设--创新互联小编放一张图给大家看看:



成都网站建设--创新互联小编假设用户搜索“关键词2”和“关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,就能找到分别含有这两个词的所有页面。经过简单求交集计算就能找出既包含”关键词2”和“关键词7”的所有页面:文件1和文件6。

初始集结的选择:找到所有关键词的匹配文件后,还不能进行相关性计算,需要的时间还是太长。实际上用户并不需要知道所有匹配的几十万,几百万个页面,绝大部分用户只会查看前两页,也就是前20个结果。搜索引擎也并不需要计算这么多页面的相关性,而只要计算最重要的一部分页面就可以了。常用搜索引擎的人都会注意到,搜索结果页面通常最多显示100个。用户点击搜索结果页面底部“下一页”链接,最多也只能看到第100页,也就是1000个搜索结果,成都网站建设--创新互联小编发张下图。

百度则通常返回76页结果,成都网站建设--创新互联小编发张下图。360搜索通常犯讳页结果,必应貌似冒雨固定页数,会根据不同查询词而变化,但也不会超过100页。



总之,最多显示1000个搜索结果,所以搜索引擎又怎么知道哪1000个文件是最相关的?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特珍而不是相关性(这些文件都包含所有查询关键词),搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行实时计算,而必须选出一个页面权重较高的一个子集,再对子集的页面进行相关性计算。

分享标题:什么是文件匹配?
链接分享:https://www.cdcxhl.com/news/179940.html

成都网站建设公司_创新互联,为您提供网站收录企业网站制作做网站关键词优化商城网站网站排名

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

小程序开发