python读取pdf内容写入txt_python怎样读取pdf文件的内容

Ⅰ 如何利用python抓取pdf中的某些内容

你的问题事实上包含几部分：

将 PDF 转化为带数纯文本格式蠢肆首
抽取其中部分内容
格式化写雹帆入到 excel 中

转换 PDF 有很多库可以完成，如下是通过 pdfminer 的示例：
from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert_pdf_2_text(path):

rsrcmgr = PDFResourceManager()
retstr = StringIO()

device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr, device)

with open(path, 'rb') as fp:
for page in PDFPage.get_pages(fp, set()):
interpreter.process_page(page)
text = retstr.getvalue()

device.close()
retstr.close()

return text

需要指出的是，pdfminer 不但可以将 PDF 转换为 text 文本，还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例，如果每页有很独特的标志，你还可以按页单独处理。

Ⅱ python如何读取word文件中的文本内容并写入到新的txt文件

Ⅲ python如何读取word文件中的文本内容并写入到新的txt文件

#确保安装了察唯python-docx包
from docx import Document as Doc
docu=Doc(input('path:'))
file=''
for i in docu.paragraphs:
----file+=i.text
f=open(input('new path:'),'w',encoding='utf-8')
f.write(file)
f.close()
#减号的位橘没纯置圆咐是缩进

Ⅳ python怎样读取pdf文件的内容

1，引言
晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。
从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。
2，把pdf转换成文本的Python源代码
下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）
复制代码
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
复制代码
如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。
3，展望
这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。
4，集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
5，文档修改历史
2016-05-26：V2.0，增补文字说明
2016-05-29：V2.1，增加第六章：源代码下载源，并更换github源的网址

Ⅳ 如何利用Python抓取PDF中的某些内容

可以转换成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext

Ⅵ python读取文件—txt文件常用读写操作

f = open("data.txt","r") #设置文件对象

f.close() #关闭文件

为了方便，避免忘记close掉这个文件对象，可以用下面这种方式替代

with open('data.txt',"r") as f: #设置文件对象

str = f.read() #可以是随便对文件的操作

f = open("data.txt","r") #设置文件对象

str = f.read()    #将txt文件的所有内容读入到字符串str中

f.close() #将文件关闭

f = open("data.txt","r") #设置文件对象

line = f.readline()

line = line[:-1]

while line:          #直到读取完文件

line = f.readline()  #读取一行文件，包括换行符

line = line[:-1]    #去掉换行符，也可以不去

f.close() #关闭文件

data = []

for line in open("data.txt","r"): #设置文件对象并读取每一行文件

data.append(line)             #将每一行文件加入到list中

f = open("data.txt","r") #设置文件对象

data = f.readlines()  #直接将文件中按行读到list里，效果与方法2一样

f.close()          #关闭文件

可以使用pandas的.read_csv，读取文件的时候可以给每一列起名字，通过列名来调取相应列的数据。

import pandas as pd

data = pd.read_csv(" OSDO1012.txt",sep=',',header=None, names=['lat','lon','time','z']

使用data.lat就可以读取名为lat这一列的数据

data = np.loadtxt("data.txt",skiprows = 1) #将文件中数据加载到data数组里，并且跳过第一行

with open('data.txt','w') as f: #设置文件对象

f.write(str)                #将字符串写入文件中

data = ['a','b','c']

单层列表写入文件

with open("data.txt","w") as f:

f.writelines(data)

每一项用空格隔开，一个列表是一行写入文件

data =[ ['a','b','c'],['a','b','c'],['a','b','c']]

with open("data.txt","w") as f: #设置文件对象

for i in data: #对于双层列表中的数据

i = str(i).strip('[').strip(']').replace(',','').replace('\'','')+'\n'  #将其中每一个列表规范化成字符串

f.write(i) #写入文件

直接将每一项都写入文件

data =[ ['a','b','c'],['a','b','c'],['a','b','c']]

with open("data.txt","w") as f: #设置文件对象

for i in data: #对于双层列表中的数据

f.writelines(i) #写入文件

np.savetxt("data.txt",data)    #将数组中数据写入到data.txt文件

np.save("data.txt",data)       #将数组中数据写入到data.txt文件

Ⅶ python中有什么包可以吧pdf文件转换为txt文件

## {{{ http://code.activestate.com/recipes/577095/ (r1)

import sys

import pyPdf

def getPDFContent(path):

content = ""

# Load PDF into pyPDF

pdf = pyPdf.PdfFileReader(file(path, "rb"))

# Iterate pages

for I in range(0, pdf.getNumPages()):

# Extract text from page and add to content

content += pdf.getPage(i).extractText() + "扰明和缓盯 \n"

# Collapse whitespace

content = u" ".join(content.replace(u"\xa0", u" ").strip().split())

return content

f = open(sys.argv[1]+'.txt','w+'槐悔)

f.write(getPDFContent(sys.argv[1]))

f.close()

#print getPDFContent(sys.argv[1]).encode("ascii", "xmlcharrefreplace")

## end of http://code.activestate.com/recipes/577095/ }}}

Ⅷ python文件读取与写入

open(filepath) ：打开文件
open(filepath,'r') :打开方式，默认是读取

open(filepath).read() ：读取文件中的内容
open(filepath).readline() :读取文件中一行的内容
open(filepath).readline()[1] :读取文件中的内容，返回值是列表。
open(filepath).close() ：关闭文件
open(filepath).seek(0) ：将光标回到首位

with open()函数，不用close()方法，默认自动关闭，所以需要制定一些规则.

文件内建函数和方法：
open() : 打开文件
read() :输入
readline() :输入一行
seek() :文件内移动
write() :输出
close() :关闭文件

Ⅸ python怎样读取pdf文件的内容

可以先把pdf转成txt再读取，使用转换工升笑具就行了
推荐一款免费的在线转换工具给你：转转大师戚帆pdf转换器
网络搜索进入网站后，到电子书转换里面选择转成txt，在线转换后再使用就行了高笑雹

Ⅹ 如何使用python来获取pdf文件里的文字，最好是不能乱码

提取pdf文字可以推荐一个工具

第一种文字型PDF比较简单，可以采用格式转换的方式直接转换PDF文件为文本。打开PDF文字识别软件，执行“文件”-“打开图像...”导入PDF文件，然后执行“输出”-“PDF文件转换为TXT文件”第二种图像型PDF，有的PDF都是扫描图片，这个就不能复制文字了，可以采用OCR识别的方式，将PDF文件转换为可编辑文档。这也是本文主要讲的pdf文字识别方法。还是打开PDF文字提取软件，执行“文件”-“打开图像...”导入PDF文件。然后执行“识别”-“开始识别...”。

导航:首页 > 编程语言 > python读取pdf内容写入txt

python读取pdf内容写入txt

与python读取pdf内容写入txt相关的资料