java调用SDK版pdftranspro接口详解-创新互联

前言

PDF 文件是一种非常常用的文件格式,在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因,pdf文档不能像word文档一样直接获取表格和段落,如要获取结构化的文档内容,需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档,过程十分复杂,而且需要不断优化才能达到满意的效果。

10年积累的成都网站设计、成都做网站经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站设计后付款的网站建设流程,更有七星关区免费网站建设让你可以放心的选择与我们合作。

PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。

pdftranspro是基于PDFBox的一款专业 pdf 文本内容提取软件,支持windows和linux平台,经过数年的持续改进其内容提取能力已经达到令人惊艳的地步,不仅能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。其个人版提供操作界面,可以一键处理单个pdf文档,个人用户免费使用。SSDK版通过Java调用SDK方式集成pdf文档转换功能,也提供 pdf文档截取合并等实用的 pdf 编辑功能。控制台版需取得licence文件才能使用,用户可免费试用。

接口说明 1.单文档转换

转换单个 PDF 文档至 html、xml、json、txt 等格式。

处理函数1:
public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt)

其中参数infile为源文件位置,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件。

处理函数2:
public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

处理函数3:
public String getpdftext(String infile,boolean out_style,String out_type)

该函数返回指定格式文本,其中参数 out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并",out_type 为文本格式,只能是”html”,”xml”,”json”或”txt”。

处理函数4:
public String getpdftext(String infile,boolean out_style,String out_type,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transone_pdf("infiles/abc.pdf","outfiles",true,true,false,false,false);    //将表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为"标记页码",文件生成在 outfiles 下。
        test.transone_pdf("infiles/abc.pdf","outfiles",false,true,true, true,true,10,20);//表示将文件 infiles/abc.pdf 转成 html、xml、json、txt四种格式,转换样式为"跨页合并",页码范围为 10 至 20 页,文件生成在 outfiles 下。
        System.out.println(test.getpdftext("infiles/abc.pdf",false,"xml"));//表示将文件 infiles/abc.pdf 转成 xml 格式,转换样式为跨页合并,返回生成的 xml 文本。
        System.out.println(test.getpdftext("infiles/abc.pdf",true,"html",10,20));//表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为标记页码,页码范围为 10 至 20 页,返回生成的 html 文本。
    }
}
2.批量文档转换

批量转换 PDF 文档至 html、xml、json、txt 等格式。

处理函数1:
public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style)

其中参数infile为源文件路径,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件。

处理函数2:
public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,int pagestart,int pageend,int num_bfs)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码,num_bfs 为并发任务数,系统默认为 5,有效设置范围为 1 至 10。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transall_pdf("infiles","outfiles",true,true,false,false,false);//将表示将文件夹 infiles 下所有 pdf 文件转成 html 格式,转换样式为标记页码,文件生成在 outfiles 下。
        test.transall_pdf("infiles","outfiles",false,true,true, true,true,10,20);//表示将文件夹infiles下所有pdf文件转成html、xml、json、txt 四种格式,转换样式为跨页合并,页码范围为 10 至 20 页,文件生成在 outfiles 下。
    }
}
3.文档截取

用于截取 pdf 文档,生成一份新的指定页码范围的 pdf 文档。

处理函数:
public void splitpdf(String filePath, String outPath,int startpageNum,int endpageNum)

其中参数filePath为源文件位置,outpath为文件输出路径, startpageNumh 和 endpageNum 分别代表起始页码和截止页码。截取后的文件名为源文件加前缀”split_”。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.splitpdf("infiles/abc.pdf","outfiles",1,10);// 表 示 截 取 文 件 infiles/abc.pdf 第 1 至 10 页 , 生 成 在 outfiles 下,文件名为”split_abc.pdf”。
    }
}
4.文档合并

用于合并两份 pdf 文档为一份 pdf 文档。

处理函数:
public void mergepdf(String filename1,String filename2,String outpath)

其中参数filename1为源文件1位置,filename2为源文件2位置,outpath为文件输出路径。合并后的文件名为filename1 加前缀”merg_”。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
    Pdfutil test = new Pdfutil();
        test.mergepdf("infiles/abc1.pdf","infiles/abc2.pdf","outfiles");// 表 示 合 并 文 件 infiles/abc1.pdf 和 infiles/abc2.pdf 生成在 outfiles 下,文件名为”merg_abc1.pdf”。
    }
}

本文完。

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧

当前文章:java调用SDK版pdftranspro接口详解-创新互联
本文链接:https://www.cdcxhl.com/article12/eddgc.html

成都网站建设公司_创新互联,为您提供外贸建站响应式网站网站内链企业网站制作建站公司网站设计公司

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都网站建设公司