本篇文章给大家分享的是有关怎么在Python中利用Spacy进行分词,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
十年专业网络公司历程,坚持以创新为先导的网站服务,服务超过千余家企业及个人,涉及网站设计、app软件开发公司、微信开发、平面设计、互联网整合营销等多个领域。在不同行业和领域给人们的工作和生活带来美好变化。
Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言,其最初的设计是用于编写自动化脚本,随着版本的不断更新和新功能的添加,常用于用于开发独立的项目和大型项目。
1、说明
Spacy语言模型包含一些强大的文本分析功能,如词性标记和命名实体识别。
导入spacy相关模块后,需要加载中文处理包。然后读小说数据,nlp处理天龙八部小说,包括分词、定量、词性标注、语法分析、命名实体识别,用符号/分隔小说。最后,通过is_stop函数判断单词中的单词是否为无效单词,删除无效单词后,将结果写入txt文件。
2、实例
import spacy import pandas as pd import time from spacy.lang.zh.stop_words import STOP_WORDS nlp = spacy.load('zh_core_web_sm') def fenci_stopwords(data,newdata1): fenci = [] qc_stopwords =[] article = pd.read_table(data,encoding="utf-8") start1 = time.time() with open(newdata1,'w',encoding='utf-8') as f1: for i in article["天龙八部"]:#分词 doc = nlp(i) result1 = '/'.join([t.text for t in doc]) fenci.append(result1) for j in fenci:#去除停用词 words = nlp.vocab[j] if words.is_stop == False: qc_stopwords.append(j) result2 = '/'.join(qc_stopwords) f1.write(result2) end1 = time.time() return end1-start1
以上就是怎么在Python中利用Spacy进行分词,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。
分享名称:怎么在Python中利用Spacy进行分词
文章来源:https://www.cdcxhl.com/article14/jgpcde.html
成都网站建设公司_创新互联,为您提供网页设计公司、软件开发、微信小程序、域名注册、网站制作、全网营销推广
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联