小编给大家分享一下CDH如何添加solr中文分词,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
成都创新互联公司长期为千余家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为犍为企业提供专业的网站制作、做网站,犍为网站改版等技术服务。拥有10多年丰富建站经验和众多成功案例,为您定制开发。
cdh最难找的就是solr\WEB-INF\lib的位置,由于cdh不是我安装的,也没有配置 SOLR_HOME,所以,我找了很久时间。可以赢find命令找。
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.10.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
二、配置步骤
下载压缩解压
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。注意:如果是cdh这个路径有变动,我的为:
/opt/cloudera/parcels/CDH-5.4.4-1.cdh6.4.4.pp0.4/lib/solr/webapps/solr/WEB-INF/lib
在高版本的CDH中,位置为:/usr/lib/solr/webapps/solr/WEB-INF/lib
如果不知道jar位置在哪里 ,可以这样搜搜索: find / -name admin.html
注意:不要把jar上传到这里:/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib
这是tomcat部署的时候的位置,重启后重新从上面两个路径的jar拷贝到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib这里,如果你上传到这里,重启solr,jar会消失
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml:
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
配置测试字段:
<field name="quesContent" type="text_ik" />
三:测试配置
以上是“CDH如何添加solr中文分词”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联行业资讯频道!
标题名称:CDH如何添加solr中文分词
文章URL:https://www.cdcxhl.com/article2/jieioc.html
成都网站建设公司_创新互联,为您提供网站设计、Google、品牌网站设计、App设计、全网营销推广、云服务器
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联