導航:首頁 > 文檔加密 > 解析pdf文件

解析pdf文件

發布時間:2024-08-06 18:31:17

A. java解析pdf文件,求大神提供代碼,請注意是java語言的

給你提供一個參考例子,你可以在這個例子上試試,修改修改。也是解析PDF的。

importjava.io.File;
importjava.io.FileOutputStream;
importjava.io.OutputStreamWriter;
importjava.io.Writer;
importjava.net.MalformedURLException;
importjava.net.URL;
importorg.apache.pdfbox.pdmodel.PDDocument;
importorg.apache.pdfbox.util.PDFTextStripper;
publicclassPdfReader{
publicvoidreadFdf(Stringfile)throwsException{
//是否排序
booleansort=false;
//pdf文件名
StringpdfFile=file;
//輸入文本文件名稱
StringtextFile=null;
//編碼方式
Stringencoding="UTF-8";
//開始提取頁數
intstartPage=1;
//結束提取頁數
intendPage=Integer.MAX_VALUE;
//文件輸入流,生成文本文件
Writeroutput=null;
//內存中存儲的PDFDocument
PDDocumentdocument=null;
try{
try{
//首先當作一個URL來裝載文件,如果得到異常再從本地文件系統//去裝載文件
URLurl=newURL(pdfFile);
//注意參數已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
//獲取PDF的文件名
StringfileName=url.getFile();
//以原來PDF的名稱來命名新產生的txt文件
if(fileName.length()>4){
FileoutputFile=newFile(fileName.substring(0,fileName
.length()-4)
+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLExceptione){
//如果作為URL裝載得到異常則從文件系統裝載
//注意參數已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile=pdfFile.substring(0,pdfFile.length()-4)
+".txt";
}
}
//文件輸入流,寫入文件倒textFile
output=newOutputStreamWriter(newFileOutputStream(textFile),
encoding);
//PDFTextStripper來提取文本
PDFTextStripperstripper=null;
stripper=newPDFTextStripper();
//設置是否排序
stripper.setSortByPosition(sort);
//設置起始頁
stripper.setStartPage(startPage);
//設置結束頁
stripper.setEndPage(endPage);
//調用PDFTextStripper的writeText提取並輸出文本
stripper.writeText(document,output);
}finally{
if(output!=null){
//關閉輸出流
output.close();
}
if(document!=null){
//關閉PDFDocument
document.close();
}
}
}
/**
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
PdfReaderpdfReader=newPdfReader();
try{
//取得E盤下的SpringGuide.pdf的內容
pdfReader.readFdf("d:\b.pdf");
}catch(Exceptione){
e.printStackTrace();
}
}
}

B. python解析PDF表格——PDFPlumber vs Camelot

題圖來自 Camelot: List o』 10 Intriguing Mythical Places

為獲取LEED認證項目的評分表明細,可念帶以從USGBC的項目頁面上爬取,或者從pdf格式的項目評分表中解析得到。以 重慶某LEED EM:OB v2009 Gold項目 為例,USGBC上公布的 LEED項目得分表 其格式並不統一,利用XPath爬取後需要進一步清洗處理。相對而言,LEED項目所對應的 項目評分表PDF文件 的數據更為規范完整。因此考慮嘗試解析出PDF文件中的表格,以便後續分析。
Python 處理PDF文件的程序包,pdfminer、tabula、型高缺pdfplumber、camelot……查詢資料表明,似乎普遍認為pdfminer的效果不怎麼好,而tabula需要java支卜辯持 ,想偷懶於是只試了pdfplumber和camelot。
安裝過程不贅述,直接來看運行結果。

pdfplumber無法直接解析出Scorecard.pdf文件中的表格,但實際上要解決此問題也並非難事。調整下思路,可先解析出pdf文件中的文本,讓後通過分列來得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本,但由於本次需要解析的得分表pdf文件的排版的原因,左右兩個表格的文本行並未完全對齊,因此如果直接解析完整頁面上的文本的話,文字會出錯。先用corp()命令指定識別范圍,然後再extract_text(),識別得到的文本列表如下所示。

對於類似本例中Scorecard.pdf表格排版有錯位的情況,也可以按照表格在頁面中所處的位置,指定表格識別的范圍。所用到的指令:camelot.plot()可以繪制出頁面的略圖,table_area參數可以指定表格識別的范圍。

又及,Camelot原來是亞瑟王和圓桌騎士們的宮殿所在地,和Asgard的Valhalla一樣,也是傳說中的聖域。搜索camelot程序安裝包時無意中學到的,漲知識了。

[1] Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比
[2] 用Python提取pdf文件中的表格數據
[3] python讀取pdf文件
[4] Github: pdfplumber
[5] Camelot: PDF Table Extraction for Humans
[6] ImageMagick Installation
[7] ImageMagick之PDF轉換成圖片(image)
[8] LEED 2009 for Existing Buildings: Operations & Maintenance
[9] Camelot - Wikipedia
[10] List o』 10 Intriguing Mythical Places
[11] Camelot識別pdf表格時的參數設置補充

C. 電腦pdf打不開是什麼原因

電腦pdf打不開的原因可能有多種,以下是一些常見的原因和解決方法:
PDF文件損壞:PDF文件可能在下載、傳輸或保存過程中損壞,導致無法正常打開。嘗試使用其他PDF閱讀器打開文件,或者從原始來源重新下載或傳輸文件。
PDF閱讀器問題:電腦上的PDF閱讀器可能存在問題,無法正確解析或顯示PDF文件。確保你的PDF閱讀器是最新版本,並嘗試重新安裝或更新閱讀器。
電腦缺少必要的組件:有些PDF文件需要特定的組件或插件才能打開。例如,某些PDF文件可能需要Adobe Reader或Adobe Acrobat等特定軟體才能打開。確保你的電腦上安裝了必要的組件或插件。
電腦病毒感染:電腦上的病毒或惡意軟體可能會干擾PDF文件的正常打開。運行殺毒軟體或安全軟體,對電腦進行全面掃描和清理。
文件格式不兼容:盡管PDF是一種通用格式,但有時某些特定類型的PDF文件可能與某些閱讀器不兼容。嘗試使用不同的PDF閱讀器打開文件,或者將文件轉換為其他格式,如Word或JPG等。
以上是電腦pdf打不開的一些常見原因及解決方法。需要注意的是,具體問題需要具體分析,有時可能需要結合多種方法才能解決問題。

D. 電腦上看pdf用什麼軟體

PDF文件屬於一種攜帶型文檔格式,有多種軟體都可以打開,最出名的就是ADOBE出品的Adobe Reader,這個軟體功能非常強大,文件解析也非常完美,唯一美中不足的是,如果你只需要一款能夠閱讀PDF的文件,那麼這款軟體可能顯得過於臃腫了。

小編比較推薦的就是福昕閱讀器,體系小,速度快,可以完美打開PDF文件,並且佔用系統資源少,對電腦配置要求不高。

另外還有的就是金山公司推出的wps軟體,這款軟體集成常用的word、excel、ppt,本身可以直接當一款辦公軟體使用,而且它本身也集成了PDF解析閱讀功能,也可以直接點開PDF文件,WPS這款軟體很多同學的電腦裡面都有,可以無需另外下載直接使用。

另外除了這些軟體外,包括360游覽器、搜狗游覽器等很多游覽器都可以支持直接打開PDF文件的,如果需要用游覽器打開軟體,可以滑鼠移到文件上直接右鍵點擊打開方式,再選擇一款游覽器打開即可。

閱讀全文

與解析pdf文件相關的資料

熱點內容
360壓縮咋加密 瀏覽:352
hadoopmapreduce編程 瀏覽:300
linuxraid軟體 瀏覽:587
北美gre範文pdf 瀏覽:262
硬碟錄像機接什麼伺服器設備 瀏覽:500
智慧醫療方面最優演算法 瀏覽:920
伺服器ban掉了是什麼意思 瀏覽:394
vvo手機拍的視頻在哪個文件夾 瀏覽:838
華為防火牆cli命令手冊 瀏覽:895
於正新劇玉樓春在什麼App播放 瀏覽:127
學習社會經驗下載什麼app 瀏覽:475
php發布站程序 瀏覽:204
源碼編譯ntfs內核模塊 瀏覽:120
r11s手機管家沒有加密 瀏覽:781
怎麼看電腦連接哪個伺服器 瀏覽:191
二手伺服器設備欺詐如何解決 瀏覽:877
單片機伺服器安裝win10 瀏覽:658
胸椎壓縮性骨折傷殘 瀏覽:954
mt怎麼解壓文件 瀏覽:41
達芬奇項目伺服器有什麼用 瀏覽:854