导航:首页 > 文档加密 > pdf内容分析

pdf内容分析

发布时间:2024-08-20 20:27:20

㈠ 用pdf卡片进行物相定性分析的二要素

卡片编号、分析试样。
可查出卡片编号,如待分析试样为单相,在物相未知的情况下可用Hanawalt索引或Fink索引进行分析。
RD标准数据库包括JCPDS(即PDF卡片),ICSD,CCDC等,分析XRD谱图的软件包括Jade,Xpert Highscore等。

python解析PDF表格——PDFPlumber vs Camelot

题图来自 Camelot: List o’ 10 Intriguing Mythical Places

为获取LEED认证项目的评分表明细,可念带以从USGBC的项目页面上爬取,或者从pdf格式的项目评分表中解析得到。以 重庆某LEED EM:OB v2009 Gold项目 为例,USGBC上公布的 LEED项目得分表 其格式并不统一,利用XPath爬取后需要进一步清洗处理。相对而言,LEED项目所对应的 项目评分表PDF文件 的数据更为规范完整。因此考虑尝试解析出PDF文件中的表格,以便后续分析。
Python 处理PDF文件的程序包,pdfminer、tabula、型高缺pdfplumber、camelot……查询资料表明,似乎普遍认为pdfminer的效果不怎么好,而tabula需要java支卜辩持 ,想偷懒于是只试了pdfplumber和camelot。
安装过程不赘述,直接来看运行结果。

pdfplumber无法直接解析出Scorecard.pdf文件中的表格,但实际上要解决此问题也并非难事。调整下思路,可先解析出pdf文件中的文本,让后通过分列来得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本,但由于本次需要解析的得分表pdf文件的排版的原因,左右两个表格的文本行并未完全对齐,因此如果直接解析完整页面上的文本的话,文字会出错。先用corp()命令指定识别范围,然后再extract_text(),识别得到的文本列表如下所示。

对于类似本例中Scorecard.pdf表格排版有错位的情况,也可以按照表格在页面中所处的位置,指定表格识别的范围。所用到的指令:camelot.plot()可以绘制出页面的略图,table_area参数可以指定表格识别的范围。

又及,Camelot原来是亚瑟王和圆桌骑士们的宫殿所在地,和Asgard的Valhalla一样,也是传说中的圣域。搜索camelot程序安装包时无意中学到的,涨知识了。

[1] Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
[2] 用Python提取pdf文件中的表格数据
[3] python读取pdf文件
[4] Github: pdfplumber
[5] Camelot: PDF Table Extraction for Humans
[6] ImageMagick Installation
[7] ImageMagick之PDF转换成图片(image)
[8] LEED 2009 for Existing Buildings: Operations & Maintenance
[9] Camelot - Wikipedia
[10] List o’ 10 Intriguing Mythical Places
[11] Camelot识别pdf表格时的参数设置补充

阅读全文

与pdf内容分析相关的资料

热点内容
等待开始的命令怎么说 浏览:294
手机加密文件算法 浏览:850
19减11怎么算法 浏览:695
java网络编程怎么样 浏览:932
商城分红返利源码 浏览:732
如何设置加密共享文件 浏览:171
安卓手机为什么会卡顿无法开机 浏览:518
服务器yum配置文件怎么写 浏览:544
东方财富app上买的基金在哪里查询 浏览:517
液压废料圆型压缩机 浏览:166
梁体加密怎么算 浏览:146
堡垒之夜什么时候出安卓手游 浏览:937
如何屏蔽安卓气泡 浏览:804
花生壳内网ftp服务器地址 浏览:493
单片机篮球计数器 浏览:688
网页服务器ip地址找不到怎么办啊 浏览:342
无线网加密模式是什么 浏览:835
河图洛书pdf 浏览:737
php5中文函数手册 浏览:654
服务器如何防止刷东西 浏览:265