导航:首页 > 编程语言 > python读取pdf内容写入txt

python读取pdf内容写入txt

发布时间:2023-05-30 20:12:13

Ⅰ 如何利用python抓取pdf中的某些内容

你的问题事实上包含几部分:

将 PDF 转化为带数纯文本格式蠢肆首
抽取其中部分内容
格式化写雹帆入到 excel 中

转换 PDF 有很多库可以完成,如下是通过 pdfminer 的示例:
from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert_pdf_2_text(path):

rsrcmgr = PDFResourceManager()
retstr = StringIO()

device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr, device)

with open(path, 'rb') as fp:
for page in PDFPage.get_pages(fp, set()):
interpreter.process_page(page)
text = retstr.getvalue()

device.close()
retstr.close()

return text

需要指出的是,pdfminer 不但可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。

Ⅱ python如何读取word文件中的文本内容并写入到新的txt文件

Ⅲ python如何读取word文件中的文本内容并写入到新的txt文件

#确保安装了察唯python-docx包
from docx import Document as Doc
docu=Doc(input('path:'))
file=''
for i in docu.paragraphs:
----file+=i.text
f=open(input('new path:'),'w',encoding='utf-8')
f.write(file)
f.close()
#减号的位橘没纯置圆咐是缩进

Ⅳ python怎样读取pdf文件的内容

1,引言
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。
从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。
2,把pdf转换成文本的Python源代码
下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)
复制代码
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
复制代码
如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。
3,展望
这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。
4,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
5,文档修改历史
2016-05-26:V2.0,增补文字说明
2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址

Ⅳ 如何利用Python抓取PDF中的某些内容

可以转换成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext

Ⅵ python读取文件—txt文件常用读写操作

f = open("data.txt","r")   #设置文件对象

f.close() #关闭文件

为了方便,避免忘记close掉这个文件对象,可以用下面这种方式替代

with open('data.txt',"r") as f:    #设置文件对象

 str = f.read()    #可以是随便对文件的操作

f = open("data.txt","r")   #设置文件对象

str = f.read()     #将txt文件的所有内容读入到字符串str中

f.close()   #将文件关闭

f = open("data.txt","r")   #设置文件对象

line = f.readline()

line = line[:-1]

while line:             #直到读取完文件

     line = f.readline()  #读取一行文件,包括换行符

     line = line[:-1]     #去掉换行符,也可以不去

f.close() #关闭文件

data = []

for line in open("data.txt","r"): #设置文件对象并读取每一行文件

     data.append(line)               #将每一行文件加入到list中

 f = open("data.txt","r")   #设置文件对象

 data = f.readlines()  #直接将文件中按行读到list里,效果与方法2一样

 f.close()             #关闭文件

可以使用pandas的.read_csv,读取文件的时候可以给每一列起名字,通过列名来调取相应列的数据。

import pandas as pd

data = pd.read_csv(" OSDO1012.txt",sep=',',header=None, names=['lat','lon','time','z']

使用data.lat就可以读取名为lat这一列的数据

 data = np.loadtxt("data.txt",skiprows = 1)   #将文件中数据加载到data数组里,并且跳过第一行

 with open('data.txt','w') as f:    #设置文件对象

    f.write(str)                 #将字符串写入文件中

data = ['a','b','c']

单层列表写入文件

with open("data.txt","w") as f:

    f.writelines(data)

每一项用空格隔开,一个列表是一行写入文件

data =[ ['a','b','c'],['a','b','c'],['a','b','c']]

with open("data.txt","w") as f:                      #设置文件对象

     for i in data:                                    #对于双层列表中的数据

      i = str(i).strip('[').strip(']').replace(',','').replace('\'','')+'\n'  #将其中每一个列表规范化成字符串

     f.write(i)                      #写入文件

直接将每一项都写入文件

data =[ ['a','b','c'],['a','b','c'],['a','b','c']]

with open("data.txt","w") as f:                    #设置文件对象

     for i in data:                                      #对于双层列表中的数据

          f.writelines(i)                            #写入文件

np.savetxt("data.txt",data)     #将数组中数据写入到data.txt文件

np.save("data.txt",data)        #将数组中数据写入到data.txt文件

Ⅶ python中有什么包可以吧pdf文件转换为txt文件

## {{{ http://code.activestate.com/recipes/577095/ (r1)

import sys

import pyPdf

def getPDFContent(path):

content = ""

# Load PDF into pyPDF

pdf = pyPdf.PdfFileReader(file(path, "rb"))

# Iterate pages

for I in range(0, pdf.getNumPages()):

# Extract text from page and add to content

content += pdf.getPage(i).extractText() + "扰明和缓盯 \n"

# Collapse whitespace

content = u" ".join(content.replace(u"\xa0", u" ").strip().split())

return content

f = open(sys.argv[1]+'.txt','w+'槐悔)

f.write(getPDFContent(sys.argv[1]))

f.close()

#print getPDFContent(sys.argv[1]).encode("ascii", "xmlcharrefreplace")

## end of http://code.activestate.com/recipes/577095/ }}}

Ⅷ python文件读取与写入

open(filepath) :打开文件
open(filepath,'r') :打开方式,默认是读取

open(filepath).read() :读取文件中的内容
open(filepath).readline() :读取文件中一行的内容
open(filepath).readline()[1] :读取文件中的内容,返回值是列表。
open(filepath).close() :关闭文件
open(filepath).seek(0) :将光标回到首位

with open()函数,不用close()方法,默认自动关闭,所以需要制定一些规则.

文件内建函数和方法:
open() : 打开文件
read() :输入
readline() :输入一行
seek() :文件内移动
write() :输出
close() :关闭文件

Ⅸ python怎样读取pdf文件的内容

可以先把pdf转成txt再读取,使用转换工升笑具就行了
推荐一款免费的在线转换工具给你:转转大师戚帆pdf转换器
网络搜索进入网站后,到电子书转换里面选择转成txt,在线转换后再使用就行了高笑雹

Ⅹ 如何使用python来获取pdf文件里的文字,最好是不能乱码

提取pdf文字可以推荐一个工具

第一种文字型PDF比较简单,可以采用格式转换的方式直接转换PDF文件为文本。打开PDF文字识别软件,执行“文件”-“打开图像...”导入PDF文件,然后执行“输出”-“PDF文件转换为TXT文件”第二种图像型PDF,有的PDF都是扫描图片,这个就不能复制文字了,可以采用OCR识别的方式,将PDF文件转换为可编辑文档。这也是本文主要讲的pdf文字识别方法。还是打开PDF文字提取软件,执行“文件”-“打开图像...”导入PDF文件。然后执行“识别”-“开始识别...”。

阅读全文

与python读取pdf内容写入txt相关的资料

热点内容
unix命令rename 浏览:864
文件加密了为啥发不出去了 浏览:457
单片机调节马达 浏览:743
镜花pdf 浏览:610
广西民族大学app忘记密码怎么办 浏览:374
学生服务器是什么意思 浏览:533
如何下载快切app 浏览:723
如何将电脑c盘文件加密 浏览:886
嵌入式为什么linux 浏览:553
c语言编译器属于系统软件 浏览:725
android如何断点调试 浏览:722
图解韩语pdf 浏览:302
sas查各文件夹空间大小 浏览:454
python脚本检查端口 浏览:960
催眠解压视频泡沫 浏览:309
云服务器部署系统 浏览:879
恶意加密别人的文件犯法 浏览:833
汉语语法pdf 浏览:158
词法分析编译原理论文 浏览:273
电脑文件夹还原方法 浏览:534