python操作pdf_python怎样读取pdf文件的内容

Ⅰ python怎样读取pdf文件的内容

1，引言
晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。
从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。
2，把pdf转换成文本的Python源代码
下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）
复制代码
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
复制代码
如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。
3，展望
这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。
4，集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
5，文档修改历史
2016-05-26：V2.0，增补文字说明
2016-05-29：V2.1，增加第六章：源代码下载源，并更换github源的网址

Ⅱ python怎么合并pdf

<
用下面的方法可以把多个pdf合并成一个PDF文件。
方法一:
1、运行Aaobe acrobat ，然后点击“创建”—“合并文件到单个PDF”，或者点击“ 创建”右侧的“合并”—“合并文件到单个PDF”。
2、弹出“合并文件”的界面，点击“添加文件”—选择“添加文件”/“添加文件夹”/“重新使用文件”来进行添加要合并的PDF文件。
3、弹出“添加文件”的界面，选择好要合并的PDF文件后，点击“添加文件”，完成要合并pdf文件的添加。
4、看到文件已添加完成，如果要调整合并文件的顺序，可以选中该文件然后用左下角的“向上”、“向下”按键来进行顺序的调整，调整完毕后点击右下角的“合并文件”按键。如果只想合并已添加单个pdf文件中的某几个页面可以通过“选择页面”选取想要添加的页面。
5、合并完成以后，会直接打开合并好的文件，名字一般为“组合1”，并自动弹出“另存为”窗口，根据需要变更文件点击保存即可把合并好的文件保存下来。
方法二：
运行PDF Binder，弹出PDF合并器功能界面，点击“添加文件”，添加要合并的PDF文件。
在打开界面选择好要合并的PDF文件后，点击“打开”，完成要合并pdf文件的添加。
下图可以看到文件已添加完成，如果要调整合并文件的顺序，可以选中该文件然后用功能区的“向上”、“向下”按键来进行顺序的调整，调整完毕后点击“合并！”按键。
在弹出的“另存为”界面输入文件名，点击保存完成文件合并，打开文档可以看到文档已合并成功。
方法三，其他如Ap PDF Split-Merge等软件合并文件。

Ⅲ Python利器：如何处理PDF表格数据

大家好，我是Peter~

在很多情况下，我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取，真的是一个令人头疼的问题。

因为PDF文件不能像Word那样直接复制，即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据？本文提供两个解决方案：

首先提供的一种方法是从文字 PDF 中提取表格信息的工具：Camelot，它能够直接将大部分表格转换为 Pandas 的 Dataframe。

更多的详细信息，请参考项目地址： https://github.com/camelot-dev/camelot

camelot的安装有多种方式。如果有报错，网上一般有解决方式：

1、通过conda安装

2、使用pip进行安装

3、通过GitHub进行安装

首先将项目复制到本地：

然后进入文件中进行安装：

下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf：

1、先读取文件

导出成csv格式的数据（方式1）

查看tables的相关信息：

导出方式2：

将数据转换成DataFrame：

tabula的功能比camelot更加强大，可以同时对多个表格数据进行提取。项目的具体地址请参考： https://github.com/chezou/tabula-py

tabula的安装是非常简单的：

安装之后检验这个库是否安装成功：

通过tabula这个库来读取PDF文件：

然后我们发现列表中唯一的一个元素就是dataframe：

将读取到的数据输出成CSV格式的文件：

上面读取的PDF文件是比较简单的，只有一页，而且刚好是一个很标准的表格形式的数据，下面看一个比较复杂的例子：

下面是第一页，第一列可以看成是索引：

在第二页中有两份表格，而且中间有很多的空白行：

第三页的数据比较标准：

这3页是在同一个PDF文件中，这3页是在同一个PDF文件中，这3页是在同一个PDF文件中

上面的红色提示中我们看到：当没有指定pages参数的时候，只会默认读取第一页的数据，所以列表的长度为1。

转成dataframe后将原来的索引变成新的一列 （部分数据）

通过pages来读取全部数据：

通过指定pages="all"：

同时获取两个表格的数据：

通过area参数来指定：

删除在读取的表格中我们不需要的字段信息

可以将得到的数据输出成不同格式的文件，以json格式为例：

我们可以看到

Ⅳ python怎么转成pdf

方法一：使用虚拟打印机pdf factory即可，而且其他格式文件只要是能够打印，选择这个虚拟打印机，都可以做成PDF文件，很简单实用；
方法二：用其他虚拟打印机转成PDF文件。
方法三：使用专门的转换软件，把文件转成PDF文件。

Ⅳ python怎样读取pdf文件的内容

fromurllib.requestimporturlopen
frompdfminer.,process_pdf
frompdfminer.converterimportTextConverter
frompdfminer.layoutimportLAParams
fromioimportStringIO
fromioimportopen

defreadPDF(pdfFile):
rsrcmgr=PDFResourceManager()
retstr=StringIO()
laparams=LAParams()
device=TextConverter(rsrcmgr,retstr,laparams=laparams)

process_pdf(rsrcmgr,device,pdfFile)
device.close()

content=retstr.getvalue()
retstr.close()
returncontent

pdfFile=urlopen("chapter1.pdf")
outputString=readPDF(pdfFile)
print(outputString)
pdfFile.close()

Ⅵ Python 操作PDF库介绍之PDFMiner

Python 操作PDF库介绍之PDFMiner

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。
它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。

github:
https://github.com/euske/pdfminer/

导航:首页 > 文档加密 > python操作pdf

python操作pdf

与python操作pdf相关的资料