1、首先要下載一個處理pdf的組件pdfminer,網路搜索去官網下載
2、下載完成解壓以後,打開cmd進入用命令安裝。python setup.py install 進行安裝
3、我們來測試一下是否安裝成功了,引入這個模塊,運行一下代碼,沒有報錯就說明安裝成功了
4、官網有文檔也有代碼示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
fp = open('mypdf.pdf', 'rb')
#創建一個PDF文檔解析器對象
parser = PDFParser(fp)
#創建一個PDF文檔對象存儲文檔結構
#提供密碼初始化,沒有就不用傳該參數
document = PDFDocument(parser, password)
#檢查文件是否允許文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#創建一個PDF資源管理器對象來存儲共享資源
rsrcmgr = PDFResourceManager()
#創建一個pdf設備對象
device = PDFDevice(rsrcmgr)
#創建一個PDF解析器對象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#處理文檔當中的每個頁面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
5、我新建一個pdf,新輸入一些內容
6、運行一下代碼即可
⑵ java 如何讀取PDF文件內容
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class PdfReader {
public void readFdf(String file) throws Exception {
// 是否排序
boolean sort = false;
// pdf文件名
String pdfFile = file;
// 輸入文本文件名稱
String textFile = null;
// 編碼方式
String encoding = "UTF-8";
// 開始提取頁數
int startPage = 1;
// 結束提取頁數
int endPage = Integer.MAX_VALUE;
// 文件輸入流,生成文本文件
Writer output = null;
// 內存中存儲的PDF Document
PDDocument document = null;
try {
try {
// 首先當作一個URL來裝載文件,如果得到異常再從本地文件系統//去裝載文件
URL url = new URL(pdfFile);
//注意參數已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
// 獲取PDF的文件名
String fileName = url.getFile();
// 以原來PDF的名稱來命名新產生的txt文件
if (fileName.length() > 4) {
File outputFile = new File(fileName.substring(0, fileName
.length() - 4)
+ ".txt");
textFile = outputFile.getName();
}
} catch (MalformedURLException e) {
// 如果作為URL裝載得到異常則從文件系統裝載
//注意參數已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
if (pdfFile.length() > 4) {
textFile = pdfFile.substring(0, pdfFile.length() - 4)
+ ".txt";
}
}
// 文件輸入流,寫入文件倒textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),
encoding);
// PDFTextStripper來提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 設置是否排序
stripper.setSortByPosition(sort);
// 設置起始頁
stripper.setStartPage(startPage);
// 設置結束頁
stripper.setEndPage(endPage);
// 調用PDFTextStripper的writeText提取並輸出文本
stripper.writeText(document, output);
} finally {
if (output != null) {
// 關閉輸出流
output.close();
}
if (document != null) {
// 關閉PDF Document
document.close();
}
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
PdfReader pdfReader = new PdfReader();
try {
// 取得E盤下的SpringGuide.pdf的內容
pdfReader.readFdf("E://SpringGuide.pdf");
} catch (Exception e) {
e.printStackTrace();
}
}
}
⑶ nodejs讀取pdf並翻轉內容保存pdf
nodejs讀取pdf並翻轉內容保存pdf需以下幾個步驟。
1、啟動windows命令行工具(windows下啟巧坦動系統搜索功能,輸入cmd回車就出來了)。穗沒
2、查看環境變數是否已經自動配置,在命令行工具中輸入node-v,如果出現v10欄位,則說明成功安裝Node.js。
3、在第三步發現輸入node-v還是沒有出現對應的欄位,那麼重啟電腦即可。
4、打開本項目文件夾,打開命令行工具(孝族桐windows系統中直接在文件的url地址欄輸入cmd就可以打開了),輸入npmicnpmnodemon-g。
5、下載puppeteer爬蟲包,在完成第五步後,使用cnpmipuppeteer--save命令下載。
6、完成第六步下載後,打開本項目的url.js,將您需要爬蟲爬取的網頁地址替換上去。
7、在命令行中輸入nodemonindex.js即可爬取對應的內容,並且自動輸出到當前文件夾下面的index.pdf文件中。
⑷ 怎麼用java讀取pdf文件內容
你可以把pdf轉成word在進行讀取
推薦使用轉轉大師pdf轉word轉換器,免費的在線工具
網路搜索下,在線免費轉換就行了,不用下載注冊,很方便
⑸ PDF格式的文檔如何讀取
分類: 電腦/網路
問題描述:
在網上搜索文檔時,打開PDF格式文檔會出現一些亂七亂八的字元.
解析:
如何把Adobe Acrobat 的PDF格式的文檔轉為Word能夠讀取、編輯的文檔。對於這個問題,不少用戶存在兩種誤解。一是認為Adobe Acrobat PDF文檔是圖形格式,無法被Word讀取; 二是認為雖然PDF也包含文字代碼信息,但Word沒有相應的PDF格式轉換器,所以無法讀取。本文將向您介紹如何把PDF文檔讀入Word。
了解PDF文檔
---- PDF文檔到底是什麼?
---- PDF是出版和圖形領域的軟體廠商Adobe制定的電子文檔格式標准。Adobe為之提供了免費的文檔瀏覽器--Adobe Acrobat Reader以及相應的編輯軟體--Adobe Acrobat,後者可以對PDF文檔中頁面的組織、鏈接進行編輯,對文檔進行批註等等。而Adobe的另外一款軟體--Illustrator則可以從各個細致入微處修整PDF文件。與普通格式的電子文檔(如純文本、超文本、RTF格式以及Word文檔等)相比,PDF文檔具有能夠完善保持版面樣式、跨平台等優越性,所以國外許多組織機構在發放無需再次編輯的文件時通常選擇使用PDF格式。在我國,許多電子書籍也開始採用PDF格式。
---- 創建PDF文件的典型方法並不是使用Illustrator等軟體來編輯,而是先用普通的文字處理和桌面排版軟體如Word、WordPerfect和PageMaker等編排好文檔,然後通過Adobe的PDF Distiller或者PDF Writer等仿列印機引擎製作PDF文件。另外也有一些PDF文檔是直接使用Adobe Acrobat配合掃描儀將原書稿掃描製作完成的,雖然該軟體配有支持對多種西方文字進行光學字元識別(OCR)的插件,但是為了保證文字的可靠性,多數情況下採用這種方法製作的PDF文件沒有進行字元識別。
---- 從以上的介紹我們可以看出,PDF文件中的文字存在兩種可能性: 其一,可能是以計算機字元代碼的形式被包裹在文件中; 其二,也可能只是一個頁面圖像中的像素組成的線條,沒有字元代碼信息。很明顯,只有第一種PDF文檔可以通過Word打開和編輯。
讓Word讀取PDF文檔
---- 下面我們就來看一下如何讓Word讀取包含字元信息的PDF文檔。由於Adobe公司在2000年就發布了4.x版本的Acrobat Reader,比以往的版本功能有所增強,所以我們就以這個版本為例來討論。
---- 實際上,Word至今也沒有PDF文檔的轉換器,因而無法對其直接讀取。我們採用的還是"剪刀+漿糊"的辦法。
---- 1.拷貝文字
---- 通常情況下,如果需要拷貝PDF中某一頁面上的所有文字,您可以進行如下操作。
定位頁面。
單擊工具欄上的"Text Select Tool"按鈕。
選擇"Edit"*"Select All",再選擇"Copy"(如圖1所示)。
切換到Word,按"粘貼"按鈕(或Ctrl+v)把內容貼到Word文檔中。
--- 如果需要拷貝的是整篇PDF文檔,則可以按照下面的步驟進行。
打開PDF文件後,選擇"View"*"Continuous"(如圖2所示)。
選擇"Edit"*"Select All"。
拷貝選中的內容。
切換到Word,粘貼內容。
---- 使用這種方法拷貝到Word文檔中的文字會保持基本的字元格式,比如粗體、斜體、字元大小等等,但是不會具有樣式等方面的設置。對於較復雜的文檔,可能需要耐心進行調整。
---- 2.拷貝圖片
---- 如果需要拷貝PDF文檔中的圖片,首先要找出一個隱藏的工具按鈕"Graphics Select Tool"。具體辦法如下。
---- (1)按下"Text Select Tool"按鈕,不要松開滑鼠左鍵,該按鈕會向右延展,顯示出額外的幾個按鈕(如圖3所示)。根據按鈕的文字提示,選擇正確的按鈕(熟悉Photoshop、CorelDraw等繪圖軟體的用戶對於這種一鈕多用的情況並不陌生)。
---- (2)把滑鼠指針移到PDF頁面上,此時指針呈十字形。拖動選擇好圖片區域,拷貝。
---- (3)回到Word文檔,粘貼即可。
---- 拷貝圖片不僅支持拷貝PDF文檔中的圖片到Word,實際上,我們可以選擇任意區域,如文字區、圖片區、文字和圖片混合區,拷貝後粘貼到Word中,它們都會被當作圖片插入到Word文檔。
---- 需要注意的是,有的PDF文檔由於製作的時候設置了某些安全選項,禁止我們拷貝其內容。如果要了解這方面的設置,可以通過選擇"File"*"Document Info"*"Security"查看(如圖4所示)。如果其中的"Selecting Text and Graphics"一項被設置為"No",這時上述拷貝文字和圖像方法就不起作用了。此時,惟一的權宜之計就是使用Print Screen鍵或者其他的抓圖軟體獲取某些PDF文檔的畫面。
⑹ 如何利用軟體讀取PDF文件中的內容
想要將PDF文件中的內容進行讀取的話以便都是使用PDF閱讀器就可以將他進行讀取的,一般不做其他一些編輯的話,以便PDF閱讀器就可以滿足我們的需求了!
這款PDF閱讀器一般使用起來就比較簡單,無論是什麼PDF文件他都可以進行打開閱讀,二期恩還可以根據用戶的需求合一些習慣進行一些設置,最大化的滿足孤苦的需求,無論是pc端還是移動端,我們都可以將PDF文件進行打開!
以上就是小編的一些見解,希望對小夥伴們有所幫助!
⑺ C#如何讀取pdf文本
NuGet包管理器 ->程序包管理器控制台 ->輸入Install-Package Spire.PDF然後按回車安裝dll
然後使用下面代碼讀取PDF文本
using System;
using System.IO;
using System.Text;
using Spire.Pdf;
namespace ExtractText_PDF
{
class Program
{
static void Main(string[] args)
{
//實例化PdfDocument類對象,並載入PDF文檔
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("sample.pdf");
//實例化一個StringBuilder 對象
StringBuilder content = new StringBuilder();
//遍歷文檔所有PDF頁面,提取文本
foreach (PdfPageBase page in doc.Pages)
{
content.Append(page.ExtractText());
}
//將提取到的文本寫為.txt格式並保存到本地路徑
String fileName = "獲取文本.txt";
File.WriteAllText(fileName, content.ToString());
}
}
}
⑻ python怎樣讀取pdf文件的內容
1,引言
晚上翻看《Python網路數據採集》這本書,看到讀取PDF內容的代碼,想起來前幾天集搜客剛剛發布了一個抓取網頁pdf內容的抓取規則,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於Firefox解析PDF的能力,能夠把pdf格式轉換成html標簽,比如,div之類的標簽,從而用GooSeeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。
從而產生了一個問題:用Python爬蟲的話,能做到什麼程度。下面將講述一個實驗過程和源代碼。
2,把pdf轉換成文本的Python源代碼
下面的python源代碼,讀取pdf文件內容(互聯網上的或是本地的),轉換成文本,列印出來。這段代碼主要用了一個第三方庫PDFMiner3K把PDF讀成字元串,然後用StringIO轉換成文件對象。(源代碼下載地址參看文章末尾的GitHub源)
復制代碼
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
復制代碼
如果PDF文件在你的電腦里,那就把urlopen返回的對象pdfFile替換成普通的open()文件對象。
3,展望
這個實驗只是把pdf轉換成了文本,但是沒有像開頭所說的轉換成html標簽,那麼在Python編程環境下是否有這個能力,留待今後探索。
4,集搜客GooSeeker開源代碼下載源
1. GooSeeker開源Python網路爬蟲GitHub源
5,文檔修改歷史
2016-05-26:V2.0,增補文字說明
2016-05-29:V2.1,增加第六章:源代碼下載源,並更換github源的網址
⑼ python怎樣讀取pdf文件的內容
fromurllib.requestimporturlopen
frompdfminer.,process_pdf
frompdfminer.converterimportTextConverter
frompdfminer.layoutimportLAParams
fromioimportStringIO
fromioimportopen
defreadPDF(pdfFile):
rsrcmgr=PDFResourceManager()
retstr=StringIO()
laparams=LAParams()
device=TextConverter(rsrcmgr,retstr,laparams=laparams)
process_pdf(rsrcmgr,device,pdfFile)
device.close()
content=retstr.getvalue()
retstr.close()
returncontent
pdfFile=urlopen("chapter1.pdf")
outputString=readPDF(pdfFile)
print(outputString)
pdfFile.close()