行业动态Python进行网页文本处理

2022-04-30    分类: 网站建设


网页文本中的中英文处理的区别在于中文需要额外加入分词处理过程。所谓分词就是将一段文本文字分成一个个词组的过程。

具体处理流程为:加载jieba分词包进行中文分词;将分词后的词组去掉停用词及一个字符的词后, 输出训练文本中的常用分词和熟悉的词组;在训练文本的数据训练及情感词典的归档中将爬取获得的网页数据的客观性文本分词后放入变量中, 主观类情感文本放入另一变量中;为自动得到网页文本中重要的关键词组, 过滤掉对网页文本意义贡献不大的常用词组, 在chi2模块的特征选择下, 采用词频-逆文本频率 (TF-IDF) 概念将分词词组变量转换为tf-idf向量形式, 输出分词向量矩阵, 为下一阶段的网页文本情感分析做准备。

名称栏目:行业动态Python进行网页文本处理
文章分享:https://www.cdcxhl.com/news/147556.html

成都网站建设公司_创新互联,为您提供电子商务外贸网站建设自适应网站营销型网站建设网站设计公司静态网站

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

搜索引擎优化