PHP计算文档频率与特征向量-创新互联

步骤:

创新互联建站自2013年起,是专业互联网技术服务公司,拥有项目成都网站制作、做网站网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元南溪做网站,已为上家服务,为南溪各地企业和个人服务,联系电话:18982081108

(1)读取3篇txt格式的英文文档;

(2)对每篇文档进行分词;

(3)利用正则表达式去掉逗号、句号等标点符号;

(4)计算文档频率;

  (5)统计特征向量

<?php $_txts = array('1.txt','2.txt','3.txt'); $_len = count($_txts); for ($i = 0;$i < $_len;$i++){ $_contents[] = file_get_contents($_txts[$i]); } for ($i = 0;$i < $_len;$i++){ //分词 $_words[] = explode(' ',trim($_contents[$i])); foreach ($_words[$i] as $_key=>$_value){ $_value = trim($_value); $_value = preg_replace('/[.|,|(|)|-|;]/','',$_value); $_words[$i][$_key]=strtolower($_value); } //去重 $_words[$i]= array_unique($_words[$i]); } //合并 $_words_com = array_merge($_words[0],$_words[1],$_words[2]); //文档频率 $_df = array_count_values($_words_com); //特征向量 for ($i = 0;$i < $_len;$i++){ $_vsm[$i] = $_df; foreach($_vsm[$i] as $_key=>$_value){ $_vsm[$i][$_key] = 0; } for ($j=0;$j<count($_words[$i]);$j++){ if (in_array($_words[$i][$j],$_words_com)){ $_vsm[$i][($_words[$i][$j])] +=1; } } } for($i = 0;$i < count($_vsm); $i++){ echo '第'.($i+1).'篇文档的特征向量: ('. implode(",",$_vsm[$i]).')<br/>'; } print_r($_df); ?>

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。

本文标题:PHP计算文档频率与特征向量-创新互联
网页URL:https://www.cdcxhl.com/article34/hcspe.html

成都网站建设公司_创新互联,为您提供网站营销App开发品牌网站建设移动网站建设微信公众号网站改版

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

h5响应式网站建设