Java中怎么实现一个TFIDF算法

这篇文章给大家介绍Java中怎么实现一个TFIDF算法,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

创新互联建站专注于企业成都全网营销推广、网站重做改版、江苏网站定制设计、自适应品牌网站建设、H5开发成都做商城网站、集团公司官网建设、成都外贸网站制作、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为江苏等各大城市提供网站开发制作服务。

算法介绍

最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。

计算公式比较简单,如下:

Java中怎么实现一个TFIDF算法

预处理

由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。

为了缩短时间,首先进行分词,一个词输出为一行方便统计,分词工具选择的是HanLp。

然后,将一个领域的文档合并到一个文件中,并用“$$$”标识符分割,方便记录文档数。

Java中怎么实现一个TFIDF算法

下面是选择的领域语料(PATH目录下):

Java中怎么实现一个TFIDF算法

代码实现

package edu.heu.lawsoutput;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileReader;

import java.io.FileWriter;

import java.util.HashMap;

import java.util.Map;

import java.util.Set;

/**

 * @ClassName: TfIdf

 * @Description: TODO

 * @author LJH

 * @date 2017年11月12日 下午3:55:15

 */

public class TfIdf {

    static final String PATH = "E:\\corpus"; // 语料库路径

    public static void main(String[] args) throws Exception {

        String test = "离退休人员"; // 要计算的候选词

        computeTFIDF(PATH, test);

    }

    /**

    * @param @param path 语料路经

    * @param @param word 候选词

    * @param @throws Exception

    * @return void

    */

    static void computeTFIDF(String path, String word) throws Exception {

        File fileDir = new File(path);

        File[] files = fileDir.listFiles();

        // 每个领域出现候选词的文档数

        Map<String, Integer> containsKeyMap = new HashMap<>();

        // 每个领域的总文档数

        Map<String, Integer> totalDocMap = new HashMap<>();

        // TF = 候选词出现次数/总词数

        Map<String, Double> tfMap = new HashMap<>();

        // scan files

        for (File f : files) {

            // 候选词词频

            double termFrequency = 0;

            // 文本总词数

            double totalTerm = 0;

            // 包含候选词的文档数

            int containsKeyDoc = 0;

            // 词频文档计数

            int totalCount = 0;

            int fileCount = 0;

            // 标记文件中是否出现候选词

            boolean flag = false;

            FileReader fr = new FileReader(f);

            BufferedReader br = new BufferedReader(fr);

            String s = "";

            // 计算词频和总词数

            while ((s = br.readLine()) != null) {

                if (s.equals(word)) {

                    termFrequency++;

                    flag = true;

                }

                // 文件标识符

                if (s.equals("$$$")) {

                    if (flag) {

                        containsKeyDoc++;

                    }

                    fileCount++;

                    flag = false;

                }

                totalCount++;

            }

            // 减去文件标识符的数量得到总词数

            totalTerm += totalCount - fileCount;

            br.close();

            // key都为领域的名字

            containsKeyMap.put(f.getName(), containsKeyDoc);

            totalDocMap.put(f.getName(), fileCount);

            tfMap.put(f.getName(), (double) termFrequency / totalTerm);

            System.out.println("----------" + f.getName() + "----------");

            System.out.println("该领域文档数:" + fileCount);

            System.out.println("候选词出现词数:" + termFrequency);

            System.out.println("总词数:" + totalTerm);

            System.out.println("出现候选词文档总数:" + containsKeyDoc);

            System.out.println();

        }

        //计算TF*IDF

        for (File f : files) {

            // 其他领域包含候选词文档数

            int otherContainsKeyDoc = 0;

            // 其他领域文档总数

            int otherTotalDoc = 0;

            double idf = 0;

            double tfidf = 0;

            System.out.println("~~~~~" + f.getName() + "~~~~~");

            Set<Map.Entry<String, Integer>> containsKeyset = containsKeyMap.entrySet();

            Set<Map.Entry<String, Integer>> totalDocset = totalDocMap.entrySet();

            Set<Map.Entry<String, Double>> tfSet = tfMap.entrySet();

            // 计算其他领域包含候选词文档数

            for (Map.Entry<String, Integer> entry : containsKeyset) {

                if (!entry.getKey().equals(f.getName())) {

                    otherContainsKeyDoc += entry.getValue();

                }

            }

            // 计算其他领域文档总数

            for (Map.Entry<String, Integer> entry : totalDocset) {

                if (!entry.getKey().equals(f.getName())) {

                    otherTotalDoc += entry.getValue();

                }

            }

            // 计算idf

            idf = log((float) otherTotalDoc / (otherContainsKeyDoc + 1), 2);

            // 计算tf*idf并输出

            for (Map.Entry<String, Double> entry : tfSet) {

                if (entry.getKey().equals(f.getName())) {

                    tfidf = (double) entry.getValue() * idf;

                    System.out.println("tfidf:" + tfidf);

                }

            }

        }

    }

    static float log(float value, float base) {

        return (float) (Math.log(value) / Math.log(base));

    }

}

运行结果

测试词为“离退休人员”,中间结果如下:

Java中怎么实现一个TFIDF算法

最终结果:

Java中怎么实现一个TFIDF算法

关于Java中怎么实现一个TFIDF算法就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

本文标题:Java中怎么实现一个TFIDF算法
分享链接:https://www.cdcxhl.com/article46/gigheg.html

成都网站建设公司_创新互联,为您提供用户体验标签优化品牌网站制作品牌网站建设企业建站网页设计公司

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

小程序开发