中文分词

2022-07-16    分类: 网站建设

成都网站设计--创新互联小编今天来和大家说说。“分词”,分词是中文搜索引擎特有的步骤。搜索引擎存储和页面处理内容及用户查询都是和以词为基础的。英文等语言单词与单词之间的空格作为天然分隔,搜索引擎索引程序可以直接把单词划分为单词的集合。而中文词与词之间没有任何的分隔符,一个句子中所有的词和句子都是联系在一起的。搜索引擎必须首先分辨那几个字组成一个词,那写字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

中文分词方法基本有两种,一种是基于词典匹配,另一种是基于统计。基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字窜中扫苗到词典中已有的词条就匹配成功,或则说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为大匹配和最小匹配。将扫苗方向和长度优先混合,又可以产生正向的大匹配,逆向大匹配等不同方法。词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法指的是分析大量的文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现月多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快捷,也有利于消除歧义。

基于词典匹配和基于统计的分词方法各优劣,实际使用中的分词系统都是混合使用两种方法的,快速高校,又能识别生词,新词,消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。比如百度搜索“搜索引擎优化”如下图可以把百度“成都网站建设”这六个字当成一个词。

这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢查询词完整匹配出现的页面,也就是说搜索“成都网站建设”时,这四个字连续完整出现更容易在百度获得好的排名。google却与此不同。下图

需要说明的是,快照只能在某些情况下帮助我们大致猜测搜索引擎的分词处理,但这不是一个通用可靠的方法,很多时候我们并不能从快照中看出搜索引擎是怎么分词的。比如在百度搜索一些很长的词或者句子,对于不同网站,百读快照有时候将整个句子标为同一个颜色,显然百度也不是将整个句子分为一个词。搜索引擎对页面的分词取决于词库的规模,准确性和分词算法的好坏,而不是取决于页面本身如何,所以seo成员对分词所能做的很少。能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生岐依的时候,比如在页面标题,hl标签中及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”的内容,那么可以把“和服”这两个字特意标为给体。如果页面是关于“化装和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析的时候就知道标为黑体的应该是一个词。

新闻名称:中文分词
文章分享:https://www.cdcxhl.com/news7/179607.html

成都网站建设公司_创新互联,为您提供网站建设微信公众号微信小程序小程序开发企业建站建站公司

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

小程序开发