导航:首页 > 文档加密 > 解析pdf文件

解析pdf文件

发布时间:2024-08-06 18:31:17

A. java解析pdf文件,求大神提供代码,请注意是java语言的

给你提供一个参考例子,你可以在这个例子上试试,修改修改。也是解析PDF的。

importjava.io.File;
importjava.io.FileOutputStream;
importjava.io.OutputStreamWriter;
importjava.io.Writer;
importjava.net.MalformedURLException;
importjava.net.URL;
importorg.apache.pdfbox.pdmodel.PDDocument;
importorg.apache.pdfbox.util.PDFTextStripper;
publicclassPdfReader{
publicvoidreadFdf(Stringfile)throwsException{
//是否排序
booleansort=false;
//pdf文件名
StringpdfFile=file;
//输入文本文件名称
StringtextFile=null;
//编码方式
Stringencoding="UTF-8";
//开始提取页数
intstartPage=1;
//结束提取页数
intendPage=Integer.MAX_VALUE;
//文件输入流,生成文本文件
Writeroutput=null;
//内存中存储的PDFDocument
PDDocumentdocument=null;
try{
try{
//首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
URLurl=newURL(pdfFile);
//注意参数已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
//获取PDF的文件名
StringfileName=url.getFile();
//以原来PDF的名称来命名新产生的txt文件
if(fileName.length()>4){
FileoutputFile=newFile(fileName.substring(0,fileName
.length()-4)
+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLExceptione){
//如果作为URL装载得到异常则从文件系统装载
//注意参数已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile=pdfFile.substring(0,pdfFile.length()-4)
+".txt";
}
}
//文件输入流,写入文件倒textFile
output=newOutputStreamWriter(newFileOutputStream(textFile),
encoding);
//PDFTextStripper来提取文本
PDFTextStripperstripper=null;
stripper=newPDFTextStripper();
//设置是否排序
stripper.setSortByPosition(sort);
//设置起始页
stripper.setStartPage(startPage);
//设置结束页
stripper.setEndPage(endPage);
//调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document,output);
}finally{
if(output!=null){
//关闭输出流
output.close();
}
if(document!=null){
//关闭PDFDocument
document.close();
}
}
}
/**
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
PdfReaderpdfReader=newPdfReader();
try{
//取得E盘下的SpringGuide.pdf的内容
pdfReader.readFdf("d:\b.pdf");
}catch(Exceptione){
e.printStackTrace();
}
}
}

B. python解析PDF表格——PDFPlumber vs Camelot

题图来自 Camelot: List o’ 10 Intriguing Mythical Places

为获取LEED认证项目的评分表明细,可念带以从USGBC的项目页面上爬取,或者从pdf格式的项目评分表中解析得到。以 重庆某LEED EM:OB v2009 Gold项目 为例,USGBC上公布的 LEED项目得分表 其格式并不统一,利用XPath爬取后需要进一步清洗处理。相对而言,LEED项目所对应的 项目评分表PDF文件 的数据更为规范完整。因此考虑尝试解析出PDF文件中的表格,以便后续分析。
Python 处理PDF文件的程序包,pdfminer、tabula、型高缺pdfplumber、camelot……查询资料表明,似乎普遍认为pdfminer的效果不怎么好,而tabula需要java支卜辩持 ,想偷懒于是只试了pdfplumber和camelot。
安装过程不赘述,直接来看运行结果。

pdfplumber无法直接解析出Scorecard.pdf文件中的表格,但实际上要解决此问题也并非难事。调整下思路,可先解析出pdf文件中的文本,让后通过分列来得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本,但由于本次需要解析的得分表pdf文件的排版的原因,左右两个表格的文本行并未完全对齐,因此如果直接解析完整页面上的文本的话,文字会出错。先用corp()命令指定识别范围,然后再extract_text(),识别得到的文本列表如下所示。

对于类似本例中Scorecard.pdf表格排版有错位的情况,也可以按照表格在页面中所处的位置,指定表格识别的范围。所用到的指令:camelot.plot()可以绘制出页面的略图,table_area参数可以指定表格识别的范围。

又及,Camelot原来是亚瑟王和圆桌骑士们的宫殿所在地,和Asgard的Valhalla一样,也是传说中的圣域。搜索camelot程序安装包时无意中学到的,涨知识了。

[1] Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
[2] 用Python提取pdf文件中的表格数据
[3] python读取pdf文件
[4] Github: pdfplumber
[5] Camelot: PDF Table Extraction for Humans
[6] ImageMagick Installation
[7] ImageMagick之PDF转换成图片(image)
[8] LEED 2009 for Existing Buildings: Operations & Maintenance
[9] Camelot - Wikipedia
[10] List o’ 10 Intriguing Mythical Places
[11] Camelot识别pdf表格时的参数设置补充

C. 电脑pdf打不开是什么原因

电脑pdf打不开的原因可能有多种,以下是一些常见的原因和解决方法:
PDF文件损坏:PDF文件可能在下载、传输或保存过程中损坏,导致无法正常打开。尝试使用其他PDF阅读器打开文件,或者从原始来源重新下载或传输文件。
PDF阅读器问题:电脑上的PDF阅读器可能存在问题,无法正确解析或显示PDF文件。确保你的PDF阅读器是最新版本,并尝试重新安装或更新阅读器。
电脑缺少必要的组件:有些PDF文件需要特定的组件或插件才能打开。例如,某些PDF文件可能需要Adobe Reader或Adobe Acrobat等特定软件才能打开。确保你的电脑上安装了必要的组件或插件。
电脑病毒感染:电脑上的病毒或恶意软件可能会干扰PDF文件的正常打开。运行杀毒软件或安全软件,对电脑进行全面扫描和清理。
文件格式不兼容:尽管PDF是一种通用格式,但有时某些特定类型的PDF文件可能与某些阅读器不兼容。尝试使用不同的PDF阅读器打开文件,或者将文件转换为其他格式,如Word或JPG等。
以上是电脑pdf打不开的一些常见原因及解决方法。需要注意的是,具体问题需要具体分析,有时可能需要结合多种方法才能解决问题。

D. 电脑上看pdf用什么软件

PDF文件属于一种便携式文档格式,有多种软件都可以打开,最出名的就是ADOBE出品的Adobe Reader,这个软件功能非常强大,文件解析也非常完美,唯一美中不足的是,如果你只需要一款能够阅读PDF的文件,那么这款软件可能显得过于臃肿了。

小编比较推荐的就是福昕阅读器,体系小,速度快,可以完美打开PDF文件,并且占用系统资源少,对电脑配置要求不高。

另外还有的就是金山公司推出的wps软件,这款软件集成常用的word、excel、ppt,本身可以直接当一款办公软件使用,而且它本身也集成了PDF解析阅读功能,也可以直接点开PDF文件,WPS这款软件很多同学的电脑里面都有,可以无需另外下载直接使用。

另外除了这些软件外,包括360游览器、搜狗游览器等很多游览器都可以支持直接打开PDF文件的,如果需要用游览器打开软件,可以鼠标移到文件上直接右键点击打开方式,再选择一款游览器打开即可。

阅读全文

与解析pdf文件相关的资料

热点内容
如何将数据库附加到服务器上 浏览:387
php退出循环 浏览:477
梦幻西游怎么修改服务器人数上限 浏览:328
自动开启命令 浏览:845
查询云服务器访问的ip 浏览:836
智能app的弱点是什么 浏览:410
php实现的n 浏览:544
Python写出特效 浏览:976
加密的zip压缩包修复 浏览:415
安卓系统源码如何混淆 浏览:291
题库算法 浏览:476
临沂压缩机生产厂家 浏览:942
cad旋转角度命令 浏览:389
阿里云是用什么牌子服务器 浏览:670
java基础入门百度云 浏览:979
360压缩咋加密 浏览:354
hadoopmapreduce编程 浏览:302
linuxraid软件 浏览:589
北美gre范文pdf 浏览:264
硬盘录像机接什么服务器设备 浏览:502