導航:首頁 > 文檔加密 > javapdf轉txt文件

javapdf轉txt文件

發布時間:2025-03-12 20:54:59

㈠ PTF怎麼轉換wod

可以用pdfBox
至於生成word,用POI;HTML的話,自己解析就可以了
PDFBox是一個開源的可以操作PDF文檔的java PDF類庫。它可以創建一個新PDF文檔,操作現有PDF文檔並提取文檔中的內容。
它具有以下特性:
1.將一個PDF文檔轉換輸出為一個文本文件。
2.可以從文本文件創建一個PDF文檔。
3.加密/解密PDF文檔。
4.向已有PDF文檔中追加內容。
5.可以從PDF文檔生成一張圖片。

㈡ java讀取pdf文件的時候出現異常

當時想把pdf中的文字讀取成txt文件,方便我的手機閱讀,寫了以下代碼,解決了這個小問題

所需要的包:PDFBox-0.7.3.zip 解壓文件夾下:external下的全部,lib文件下的PDFBox-0.7.3.jar

注意:只能讀取文本格式的pdf,如果pdf為圖片格式的,本程序不能使用!

程序介紹:本程序將文本格式pdf中的文字讀取出來,存入與pdf文件同文件名的TXT文本文檔。

支持中文,但是在某些文字上會出現亂碼.

package com.small;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Pdfreader {
public void readFdf(String file) throws Exception {
// 是否排序
boolean sort = false;
// pdf文件名
String pdfFile = file;
// 輸入文本文件名稱
String textFile = null;
// 編碼方式
String encoding = "GB2312";
// 開始提取頁數
int startPage = 1;
// 結束提取頁數
int endPage = Integer.MAX_VALUE;
// 文件輸入流,生成文本文件
Writer output = null;
// 內存中存儲的PDF Document
PDDocument document = null;
try {
try {
// 首先當作一個URL來裝載文件,如果得到異常再從本地文件系統//去裝載文件
URL url = new URL(pdfFile); //注意參數已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
// 獲取PDF的文件名
String fileName = url.getFile();
// 以原來PDF的名稱來命名新產生的txt文件
if (fileName.length() > 4) {
File outputFile = new File(fileName.substring(0, fileName
.length() - 4)
+ ".txt");
textFile = outputFile.getName();
}
} catch (MalformedURLException e) {
// 如果作為URL裝載得到異常則從文件系統裝載 //注意參數已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() - 4)
+ ".txt";
}
}
// 文件輸入流,寫入文件倒textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),
encoding);
// PDFTextStripper來提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 設置是否排序
stripper.setSortByPosition(sort);
// 設置起始頁
stripper.setStartPage(startPage);
// 設置結束頁
System.out.print(stripper.getText(document));
stripper.setEndPage(endPage);
// 調用PDFTextStripper的writeText提取並輸出文本
stripper.writeText(document, output);
} finally {
if (output != null) {
// 關閉輸出流
output.close();
}
if (document != null) {
// 關閉PDF Document
document.close();
}
}
} /**
* @param args
*/
public static void main(String[] args) {
Pdfreader pdfReader = new Pdfreader();
try {
// 讀取pdf文件
pdfReader.readFdf("d:\\2\\D.pdf");
} catch (Exception e) {
e.printStackTrace();
}
}

}
http://hi..com/websays/blog/item/bb5a9daa950dc1baca130c7f.html

㈢ java怎麼輸出pdf格式的文件

java導出pdf需要用到iText庫,iText是著名的開放源碼的站點sourceforge一個項目,是用於生成PDF文檔的一個java類庫。通過iText不僅可以生成PDF或rtf
的文檔,而且可以將XML、Html文件轉化為PDF文件。
iText的安裝非常方便,下載iText.jar文件後,只需要在系統的CLASSPATH中加入iText.jar的路徑,在程序中就可以使用
iText類庫了。
代碼如下:

public class createPdf {
//自己做的一個簡單例子,中間有圖片之類的
//先建立Document對象:相對應的 這個版本的jar引入的是com.lowagie.text.Document
Document document = new Document(PageSize.A4, 36.0F, 36.0F, 36.0F, 36.0F);
public void getPDFdemo() throws DocumentException, IOException{
//這個導出用的是 iTextAsian.jar 和iText-2.1.3.jar 屬於比較老的方法。 具體下在地址見:
//首先
//字體的定義:這里用的是自帶的jar裡面的字體
BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", false);
// 當然你也可以用你電腦裡面帶的字體庫
//BaseFont bfChinese = BaseFont.createFont("C:/WINDOWS/Fonts/SIMSUN.TTC,1",BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
//定義字體 注意在最新的包裡面 顏色是封裝的
Font fontChinese8 = new Font(bfChinese, 10.0F, 0, new Color(59, 54, 54));
//生成pdf的第一個步驟:
//保存本地指定路徑
saveLocal();
document.open();
ByteArrayOutputStream ba = new ByteArrayOutputStream();
// PdfWriter writer = PdfWriter.getInstance(document, ba);
document.open();
//獲取此編譯的文件路徑
String path = this.getClass().getClassLoader().getResource("").getPath();
//獲取根路徑
String filePath = path.substring(1, path.length()-15);
//獲取圖片路徑 找到你需要往pdf上生成的圖片
//這里根據自己的獲取的路徑寫 只要找到圖片位置就可以
String picPath = filePath +"\\WebContent" +"\\images\\";
//往PDF中添加段落
Paragraph pHeader = new Paragraph();
pHeader.add(new Paragraph(" 你要生成文字寫這里", new Font(bfChinese, 8.0F, 1)));
//pHeader.add(new Paragraph("文字", 字體 可以自己寫 也可以用fontChinese8 之前定義好的 );
document.add(pHeader);//在文檔中加入你寫的內容
//獲取圖片
Image img2 = Image.getInstance(picPath +"ccf-stamp-new.png");
//定義圖片在文檔中顯示的絕對位置
img2.scaleAbsolute(137.0F, 140.0F);
img2.setAbsolutePosition(330.0F, 37.0F);
//將圖片添加到文檔中
document.add(img2);
//關閉文檔
document.close();
/*//設置文檔保存的文件名
response.setHeader("Content-
disposition", "attachment;filename=\""+ new String(("CCF會員資格確認
函.pdf").getBytes("GBK"),"ISO-8859-1") + "\"");
//設置類型
response.setContentType("application/pdf");
response.setContentLength(ba.size());
ServletOutputStream out = response.getOutputStream();
ba.writeTo(out);
out.flush();*/
}
public static void main(String[]args) throws DocumentException, IOException{
createPdf pdf= new createPdf();
pdf.getPDFdemo();
}

//指定一個文件進行保存 這里吧文件保存到D盤的text.pdf
public void saveLocal() throws IOException, DocumentException{
//直接生成PDF 制定生成到D盤test.pdf
File file = new File("D:\\text2.pdf");
file.createNewFile();
PdfWriter.getInstance(document, new FileOutputStream(file));

}
}

㈣ java 如何訪問pdf文件

在Java中,訪問PDF文件並提取其文本內容需要使用PDFBox庫。首先,你需要導入必要的類,如FileInputStream,PDDocument,PDFParser和PDFTextStripper。以下是一個簡單的示例代碼:

假設你的PDF文件路徑為"F:/pdf/網易技術部的MySQL中文資料.pdf"。創建一個名為PDFReader的類,該類包含一個名為GetTextFromPdf的方法,該方法接收一個文件名作為參數,並返回PDF文件中的純文本內容。在方法內部,首先創建一個FileInputStream對象,然後使用PDFParser解析該文件。接著,通過PDDocument對象獲取PDF文檔的內容,最後使用PDFTextStripper提取文本。示例代碼如下:

java
import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;
public class PDFReader {
public static String file_path = "F:/pdf/網易技術部的MySQL中文資料.pdf";
// 獲取PDF內純文本信息
public String GetTextFromPdf(String filename) throws Exception {
FileInputStream instream = new FileInputStream(filename);
// 根據指定文件創建輸入流
PDFParser parser = new PDFParser(instream);
// 創建PDF解析器
parser.parse();
// 執行PDF解析過程
PDDocument pdfdocument = parser.getPDDocument();
// 獲取解析器的PDF文檔對象
PDFTextStripper pdfstripper = new PDFTextStripper();
// 生成PDF文檔內容剝離器
String contenttxt = pdfstripper.getText(pdfdocument);
// 利用剝離器獲取文檔
System.out.println("文件長度 : " + contenttxt.length() + "\n");
return contenttxt;
}
public static void main(String args[]) {
PDFReader pdfbox = new PDFReader();
// 生成PDFBoxHello對象
try {
// 獲取文檔純文本內容
String doctext = pdfbox.GetTextFromPdf(file_path);
System.out.println("文件內容 : ");
System.out.println(doctext);
System.out.println("文件結束 . ");
} catch (Exception e) {
e.printStackTrace();
}
}
}

這段代碼首先通過FileInputStream打開PDF文件,然後利用PDFParser解析該文件,之後通過PDDocument獲取PDF文檔對象,並使用PDFTextStripper提取文本內容。需要注意的是,為了使用這些類,你需要在項目中引入PDFBox庫。

這個例子展示了如何使用Java讀取PDF文件中的文本。通過這種方式,你可以將PDF文檔轉換為純文本,方便進一步處理或分析。當然,你也可以根據需要對代碼進行調整,以滿足特定的需求。

閱讀全文

與javapdf轉txt文件相關的資料

熱點內容
程序員放棄後會怎樣 瀏覽:186
河北模具編程 瀏覽:189
adb查找命令 瀏覽:323
安卓手機視頻文件夾怎麼打開 瀏覽:313
平板加密手機後怎麼關閉 瀏覽:572
流媒體伺服器應該注意什麼 瀏覽:538
d8命令編譯 瀏覽:967
壓縮包解壓需要多少空間 瀏覽:148
如何查找app屬性 瀏覽:388
android人臉識別技術 瀏覽:323
pc104編程 瀏覽:336
二維碼反編譯破解推廣 瀏覽:684
修改伺服器的mac地址 瀏覽:529
好玩的編程軟體 瀏覽:901
編程語言創始人有錢嗎 瀏覽:808
短視頻app怎麼獲客 瀏覽:16
查看雲伺服器的應用 瀏覽:438
javadump工具 瀏覽:566
程序員16g 瀏覽:448
程序員沒有辦法成為top怎麼辦 瀏覽:221