2022-09-24 分类: 网站建设
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。 中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。 基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。
按照扫描方向,基+词典的匹配法可以分为1F向匹配和逆向匹配。按照匹配:长度优先级的不同,又可以分为大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向大匹配、逆向大匹配等不同方法。 词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。 基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。
基于词典匹配和基于统计分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。 中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“长沙网络公司”,从快照中可以看到,百度把“长沙网络公司”这六个字当成一个词。
而在Google搜索同样的词,快照显示Google将其分切为“长沙”、“网络”和“公司”三个词。显然百度切分得更为合理,长沙网络公司是一个完整的概念。Google分词时倾向于更为细碎。
再举一个更明显的例子。在Google搜索“创新互联”四个字,快照显示Google将其切分为“杭”,“泰”及“网络”三个词。“创新互联”这个中文网络公司领域最知名的品牌,显然并没有进入Google的词典中。
在百度搜索“创新互联”时会发现,百度将“创新互联”当做一个,词。甚至在百度搜索“创新互联电话”,可以发现百度把“创新互联电话”都当成一个词。
这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的的原因之一。比如百度更喜欢将插索词完整匹配地出现在页面上,也就是说搜索“创新互联”时,这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。
一些页面出现“创新互联”和“网络”两个词,但不必完整匹配地出现,“创新互联”出现在前面,“网络”出现在页面的其他地方,这样的页面在Google搜索“创新互联”时,也可以获得不错的排名。 搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题、hl.标签及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。
文章名称:搜索引擎的分词技术有助于SEO优化
本文来源:https://www.cdcxhl.com/news/197737.html
成都网站建设公司_创新互联,为您提供网站策划、服务器托管、网站导航、网页设计公司、小程序开发、自适应网站
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容