㈠ PTF怎么转换wod
可以用pdfBox
至于生成word,用POI;HTML的话,自己解析就可以了
PDFBox是一个开源的可以操作PDF文档的java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
㈡ java读取pdf文件的时候出现异常
当时想把pdf中的文字读取成txt文件,方便我的手机阅读,写了以下代码,解决了这个小问题
所需要的包:PDFBox-0.7.3.zip 解压文件夹下:external下的全部,lib文件下的PDFBox-0.7.3.jar
注意:只能读取文本格式的pdf,如果pdf为图片格式的,本程序不能使用!
程序介绍:本程序将文本格式pdf中的文字读取出来,存入与pdf文件同文件名的TXT文本文档。
支持中文,但是在某些文字上会出现乱码.
package com.small;
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class Pdfreader {
public void readFdf(String file) throws Exception {
// 是否排序
boolean sort = false;
// pdf文件名
String pdfFile = file;
// 输入文本文件名称
String textFile = null;
// 编码方式
String encoding = "GB2312";
// 开始提取页数
int startPage = 1;
// 结束提取页数
int endPage = Integer.MAX_VALUE;
// 文件输入流,生成文本文件
Writer output = null;
// 内存中存储的PDF Document
PDDocument document = null;
try {
try {
// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
URL url = new URL(pdfFile); //注意参数已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
// 获取PDF的文件名
String fileName = url.getFile();
// 以原来PDF的名称来命名新产生的txt文件
if (fileName.length() > 4) {
File outputFile = new File(fileName.substring(0, fileName
.length() - 4)
+ ".txt");
textFile = outputFile.getName();
}
} catch (MalformedURLException e) {
// 如果作为URL装载得到异常则从文件系统装载 //注意参数已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() - 4)
+ ".txt";
}
}
// 文件输入流,写入文件倒textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),
encoding);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 设置是否排序
stripper.setSortByPosition(sort);
// 设置起始页
stripper.setStartPage(startPage);
// 设置结束页
System.out.print(stripper.getText(document));
stripper.setEndPage(endPage);
// 调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document, output);
} finally {
if (output != null) {
// 关闭输出流
output.close();
}
if (document != null) {
// 关闭PDF Document
document.close();
}
}
} /**
* @param args
*/
public static void main(String[] args) {
Pdfreader pdfReader = new Pdfreader();
try {
// 读取pdf文件
pdfReader.readFdf("d:\\2\\D.pdf");
} catch (Exception e) {
e.printStackTrace();
}
}
}
http://hi..com/websays/blog/item/bb5a9daa950dc1baca130c7f.html
㈢ java怎么输出pdf格式的文件
java导出pdf需要用到iText库,iText是着名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf
的文档,而且可以将XML、Html文件转化为PDF文件。
iText的安装非常方便,下载iText.jar文件后,只需要在系统的CLASSPATH中加入iText.jar的路径,在程序中就可以使用
iText类库了。
代码如下:
public class createPdf {
//自己做的一个简单例子,中间有图片之类的
//先建立Document对象:相对应的 这个版本的jar引入的是com.lowagie.text.Document
Document document = new Document(PageSize.A4, 36.0F, 36.0F, 36.0F, 36.0F);
public void getPDFdemo() throws DocumentException, IOException{
//这个导出用的是 iTextAsian.jar 和iText-2.1.3.jar 属于比较老的方法。 具体下在地址见:
//首先
//字体的定义:这里用的是自带的jar里面的字体
BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", false);
// 当然你也可以用你电脑里面带的字体库
//BaseFont bfChinese = BaseFont.createFont("C:/WINDOWS/Fonts/SIMSUN.TTC,1",BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
//定义字体 注意在最新的包里面 颜色是封装的
Font fontChinese8 = new Font(bfChinese, 10.0F, 0, new Color(59, 54, 54));
//生成pdf的第一个步骤:
//保存本地指定路径
saveLocal();
document.open();
ByteArrayOutputStream ba = new ByteArrayOutputStream();
// PdfWriter writer = PdfWriter.getInstance(document, ba);
document.open();
//获取此编译的文件路径
String path = this.getClass().getClassLoader().getResource("").getPath();
//获取根路径
String filePath = path.substring(1, path.length()-15);
//获取图片路径 找到你需要往pdf上生成的图片
//这里根据自己的获取的路径写 只要找到图片位置就可以
String picPath = filePath +"\\WebContent" +"\\images\\";
//往PDF中添加段落
Paragraph pHeader = new Paragraph();
pHeader.add(new Paragraph(" 你要生成文字写这里", new Font(bfChinese, 8.0F, 1)));
//pHeader.add(new Paragraph("文字", 字体 可以自己写 也可以用fontChinese8 之前定义好的 );
document.add(pHeader);//在文档中加入你写的内容
//获取图片
Image img2 = Image.getInstance(picPath +"ccf-stamp-new.png");
//定义图片在文档中显示的绝对位置
img2.scaleAbsolute(137.0F, 140.0F);
img2.setAbsolutePosition(330.0F, 37.0F);
//将图片添加到文档中
document.add(img2);
//关闭文档
document.close();
/*//设置文档保存的文件名
response.setHeader("Content-
disposition", "attachment;filename=\""+ new String(("CCF会员资格确认
函.pdf").getBytes("GBK"),"ISO-8859-1") + "\"");
//设置类型
response.setContentType("application/pdf");
response.setContentLength(ba.size());
ServletOutputStream out = response.getOutputStream();
ba.writeTo(out);
out.flush();*/
}
public static void main(String[]args) throws DocumentException, IOException{
createPdf pdf= new createPdf();
pdf.getPDFdemo();
}
//指定一个文件进行保存 这里吧文件保存到D盘的text.pdf
public void saveLocal() throws IOException, DocumentException{
//直接生成PDF 制定生成到D盘test.pdf
File file = new File("D:\\text2.pdf");
file.createNewFile();
PdfWriter.getInstance(document, new FileOutputStream(file));
}
}
㈣ java 如何访问pdf文件
在Java中,访问PDF文件并提取其文本内容需要使用PDFBox库。首先,你需要导入必要的类,如FileInputStream,PDDocument,PDFParser和PDFTextStripper。以下是一个简单的示例代码:
假设你的PDF文件路径为"F:/pdf/网易技术部的MySQL中文资料.pdf"。创建一个名为PDFReader的类,该类包含一个名为GetTextFromPdf的方法,该方法接收一个文件名作为参数,并返回PDF文件中的纯文本内容。在方法内部,首先创建一个FileInputStream对象,然后使用PDFParser解析该文件。接着,通过PDDocument对象获取PDF文档的内容,最后使用PDFTextStripper提取文本。示例代码如下:
java
import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;
public class PDFReader {
public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
// 获取PDF内纯文本信息
public String GetTextFromPdf(String filename) throws Exception {
FileInputStream instream = new FileInputStream(filename);
// 根据指定文件创建输入流
PDFParser parser = new PDFParser(instream);
// 创建PDF解析器
parser.parse();
// 执行PDF解析过程
PDDocument pdfdocument = parser.getPDDocument();
// 获取解析器的PDF文档对象
PDFTextStripper pdfstripper = new PDFTextStripper();
// 生成PDF文档内容剥离器
String contenttxt = pdfstripper.getText(pdfdocument);
// 利用剥离器获取文档
System.out.println("文件长度 : " + contenttxt.length() + "\n");
return contenttxt;
}
public static void main(String args[]) {
PDFReader pdfbox = new PDFReader();
// 生成PDFBoxHello对象
try {
// 获取文档纯文本内容
String doctext = pdfbox.GetTextFromPdf(file_path);
System.out.println("文件内容 : ");
System.out.println(doctext);
System.out.println("文件结束 . ");
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码首先通过FileInputStream打开PDF文件,然后利用PDFParser解析该文件,之后通过PDDocument获取PDF文档对象,并使用PDFTextStripper提取文本内容。需要注意的是,为了使用这些类,你需要在项目中引入PDFBox库。
这个例子展示了如何使用Java读取PDF文件中的文本。通过这种方式,你可以将PDF文档转换为纯文本,方便进一步处理或分析。当然,你也可以根据需要对代码进行调整,以满足特定的需求。