导航:首页 > 文档加密 > 图片转pdfPython

图片转pdfPython

发布时间:2022-03-15 07:16:23

⑴ 如何利用pythonpdf文件做OCR识别

1.安装tesseract

2.安装PyOCR

3.安装Wand和PIL
在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。
我们需要使用它来将PDF文件转换成图像:

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

5.开始
现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。
接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。
wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容,希望这个教程能够帮助到你们!

⑵ 怎么用python批量将ppt转换成pdf

你好,试试这个,希望能帮到你。
1. [代码][Python]代码
#!/usr/bin/env python

import os
import sys
from reportlab.lib.pagesizes import A4, landscape
from reportlab.pdfgen import canvas
f = sys.argv[1]
filename = ''.join(f.split('/')[-1:])[:-4]
f_jpg = filename+'.jpg'
print f_jpg
def conpdf(f_jpg):
f_pdf = filename+'.pdf'
(w, h) = landscape(A4)
c = canvas.Canvas(f_pdf, pagesize = landscape(A4))
c.drawImage(f, 0, 0, w, h)
c.save()
print "okkkkkkkk."

conpdf(f_jpg)

⑶ 怎样利用python将pdf转换成jpg格式

可以用第三方库wand实现(我的环境:win10、python3)

需要安装wand 、imagemagick和ghostscript

wand的安装很简单:直接cmd 运行pip install wand

然后安装imagemagick ,从这里下载网页链接,注意是32位还是64位,这个需要和python的位数一致。

安装过程注意勾选Install development headers and libraries for C and C++ 。安装后设置MAGICK_HOME环境变量,值为imagemagick的安装路径,并将安装路径加入path。

详情可参照此页面网页链接。

最后安装ghostscript,这里下载网页链接,选择AGPL release,注意32位还是64位。

安装过程很简单,一路点击next,如果不想安装在c盘,可以改变安装路径,这个没有影响。

最后上代码(很简单):

#-*-coding:utf-8-*-

fromwand.imageimportImage

withImage(filename="pdf_file_name",resolution=300)asimg:
img.format='jpeg'
img.save(filename='converted.jpg')

上面的pdf_file_name输入要处理的pdf文件名,最后会在当前目录下生成converted.jpg

说明:这几行代码比较简单,处理页数较少的pdf还行,页数太多会卡住。但是可以用pyPDF2分割pdf然后转换,这是一种思路,关于pyPDF2的教程自行网络吧。

⑷ python 有没有将 html 文件转换为 pdf 的库

python 有没有将 html 文件转换为 pdf 的库
说明:将以下脚本拷贝到vi中,保存,修改权限执行,得到你想要的结果。

#!/bin/bash
cd /etc/named
cp honey.com.zone /tmp/honey.com.zone.bk
awk '/^@ IN NS nsl.honey.com./ {print "@ IN NS nsl.ashaur.com";next} \
/^www IN A 192.168.1.7/ {print "www IN A 192.168.1.6";next} \
{print}' honey.com.zone >/tmp/honey.com.zone.tmp
cp /tmp/honey.com.zone.tmp /etc/named/honey.com.zone

⑸ python怎么转成pdf

方法一:使用虚拟打印机pdf factory即可,而且其他格式文件只要是能够打印,选择这个虚拟打印机,都可以做成PDF文件,很简单实用;
方法二:用其他虚拟打印机转成PDF文件。
方法三:使用专门的转换软件,把文件转成PDF文件。

⑹ 怎么用 Python 将 pdf,doc 等转换成 jpg

用office自带的一个工具,可以把你扫描的文字型图片转换成文字,但是精确度不是很高 看图软件没那个功能,你可以参以下方法,将图片用WORD打开,成为图片,选择“文件”→“打颖,并选择打印机为Microsoft Office Document Image Writer打印机,勾选...

⑺ 怎么用python批量将ppt转换成pdf

打开office转换器
选择批量转换
选中文件后
点击需要转换的类型
然后点击确定

⑻ VBA 或 python 如何批量将JPG文件转PDF

# -*- coding:utf-8 -*-
#!/usr/bin/env python

import os
from reportlab.lib.pagesizes import A4, landscape
from reportlab.pdfgen import canvas
from tkinter import *
import time

# 图片文件名称列表
IMAGEFILES = []
class pdfTk(object):

def __init__(self):
'''用于生成主界面用于填写'''
self.top = Tk()
self.sw = self.top.winfo_screenwidth()
self.sh = self.top.winfo_screenheight()
self.topw = 500
self.toph = 200
self.top.title('图片转pdf生成器')
self.top.geometry("%dx%d+%d+%d" % (self.topw, self.toph, (self.sw - self.topw) / 2, (self.sh - self.toph) / 2))

self._DIRPATH = StringVar(self.top)

self.emptfmone = Frame(self.top, height=50)
self.emptfmone.pack()

self.dirfm = Frame(self.top)
self.descriptLabel = Label(self.dirfm, width=4, text='路径:')
self.descriptLabel.pack(side=LEFT)
self.dirn = Entry(self.dirfm, width=50, textvariable=self._DIRPATH)
#self.dirn.bind('<Return>', self.setPath)
self.dirn.pack(side=LEFT)
self.dirfm.pack()

self.emptfmtwo = Frame(self.top, height=30)
self.emptfmtwo.pack()

self.btnfm = Frame(self.top)
self.converBtn = Button(self.btnfm, width=10, text='生成PDF', command=self.doneAnyThing,
activeforeground='white', activebackground='blue')
self.quitBtn = Button(self.btnfm, width=10, text='退出', command=self.top.quit, activeforeground='white',
activebackground='blue')
self.converBtn.pack(side=LEFT, padx=10)
self.quitBtn.pack(side=LEFT, padx=10)
self.btnfm.pack()

def doneAnyThing(self):
self.getListImages(self._DIRPATH.get())
pdfFile = self.converPath(self._DIRPATH.get()) + self.dateStr() + ".pdf"
self.convertpdf(pdfFile)

def convertpdf(self, pdfFile):
'''多个图片合成一个pdf文件'''
(w, h) = landscape(A4) #
cv = canvas.Canvas(pdfFile, pagesize=landscape(A4))
for imagePath in IMAGEFILES:
cv.drawImage(imagePath, 0, 0, w, h)
cv.showPage()
cv.save()

def getListImages(self, dirPath):
'''读取指定文件夹下所有的JPEG图片,存入列表'''
if dirPath is None or len(dirPath) == 0:
raise ValueError('dirPath不能为空,该值为存放图片的具体路径文件夹!')
if os.path.isfile(dirPath):
raise ValueError('dirPath不能为具体文件,该值为存放图片的具体路径文件夹!')
if os.path.isdir(dirPath):
for imageName in os.listdir(dirPath):
if imageName.endswith('.jpg') or imageName.endswith('.jpeg'):
absPath = self.converPath(dirPath) + imageName
IMAGEFILES.append(absPath)

def converPath(self, dirPath):
'''用于转换路径,判断路径后是否为\\,如果有则直接输出,如果没有则添加'''
if dirPath is None or len(dirPath) == 0:
raise ValueError('dirPath不能为空!')
if os.path.isfile(dirPath):
raise ValueError('dirPath不能为具体文件,该值为文件夹路径!')
if not str(dirPath).endswith("\\"):
return dirPath + "\\"
return dirPath

def dateStr(self):
'''用于生成指定格式的日期,目的是为了拼接字符串'''
return time.strftime("%Y-%m-%d", time.localtime())

def main():
'''该函数主要用于生成PDF文件'''
pdfTk()
mainloop()

if __name__ == '__main__':
'''主函数,进行启动'''
main()

阅读全文

与图片转pdfPython相关的资料

热点内容
磁力计校正算法 浏览:491
解压缩后变小了 浏览:957
智友文件夹 浏览:81
android操作系统开发的操作系统 浏览:478
原神手机怎么改b站服务器 浏览:296
桩基箍筋加密区高度规范 浏览:91
手机樱花动漫app怎么用 浏览:382
php科学计数法转换 浏览:642
sip认证算法 浏览:785
androidapp卡顿原因 浏览:905
25编程器电路 浏览:849
安卓九是什么东西 浏览:939
隐藏nodejs命令行窗口 浏览:62
人体与写生素描pdf 浏览:883
java集合性能 浏览:143
单片机三线通信 浏览:209
昆山ug编程培训学费 浏览:628
黄色app怎么盈利的 浏览:957
怎么修改linux密码 浏览:703
国家发展中心app长什么样子 浏览:243