pdf流解析_pdf文档无法解析什么原因

❶ java解析pdf文字顺序不对

修复你的PDF软件或者调整页面顺序。
java解析pdf获取pdf中内容信息：
第一种使用开源组织提供的开源框架 pdfboxapi ； https://pdfbox.apache.org/
特点:免费，功能强大，解析中文或许会存在乱码，默认格式有点乱，没有国产解析的那么美化。
想要按行读取：可以按照指定的模板，对pdf进行修改添加删除等操作，总之操作很骚，很强大。
1.pdfbox 需要带入依赖。
2.代码。
第二种使用国产的框架 Spire.PDF包含两种版本。
1 免费版。
https://www.e-iceblue.cn/Downloads/Free-Spire-PDF-JAVA.html
友情提示: 免费版有 10 页的页数输出限制，在输出结果文档时只能输出前10页。将 PDF 文档转换为图片、Word、HTML、XPS等格式时，仅支持转换前 10 页。如超出限制，可升级到商业版，我们仅对免费版进行不定期维护。
2 商业版本。
https://www.e-iceblue.cn/Introce/Spire-PDF-JAVA.html。
api。
http://e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.html。
特点：商业版本收费，免费版本有限制，可供开发人员调试，解析格式友好，解析结果是按照行显示,对pdf 图形，水印，文本，条形码等添加增删改操作，总之个人感觉比pdfbox顺手，但就是收费啊，谁让咱公司没钱呢。
主要功能：
只需 Free Spire.PDF for Java，无需 Adobe Acrobat。
Free Spire.PDF for Java 是一款完全独立的 PDF 类库。它的运行环境无需安装 Adobe Acrobat 或其他任何第三方组件。
多样化的PDF文档操作功能。
Free Spire.PDF for Java 支持画文本、图片、表格、条形码、形状到 PDF，提取文本和图片，创建、填充和删除 PDF 表单，添加文本/图片水印到 PDF，添加、更新和删除 PDF 书签，操作超链接、附件和注释，以及添加图片/文本印章到 PDF 等。
文档信息设置。
Free Spire.PDF for Java 支持设置 PDF 文档信息，例如文档属性设置，偏好设置（页面方向，页面大小，缩放比例等）。
高质量的文档转换功能。
Free Spire.PDF for Java 支持将 PDF 文档高质量地转换为 Word、HTML、XPS、图片、SVG 和 PDF/A 格式，以及将 XPS 文档高质量地转换为 PDF 格式。
文档安全性设置。
Free Spire.PDF for Java 支持给 PDF 文档添加和验证数字签名，加密和解密 PDF 文档，修改 PDF 文档的安全权限，以及检测签名后的 PDF 文档是否被修改。
易于集成。
开发人员可以轻易地将 Free Spire.PDF for Java 集成到 Java（J2SE和J2EE）应用程序中。

❷ PDF解析模块-PDFMiner开发手册[翻译]

转 https://blog.csdn.net/robolinux/article/details/43318229
原文地址: http://euske.github.io/pdfminer/programming.html

软件版本:pdfminer-20140328

翻译：robolinux

时间：20150110

PDF格式不是规范格式. 尽管它被叫做"PDF文档", 但并不像word或者html文档。PDF的表现更像一张图片。PDF更像是在一张纸的各个准确的位置上把内容都摆放出来。大部分情况下，没有逻辑结构，比如句子或段落，并且不能自适应页面大小的调整。PDFMiner尝试通过猜测它们的布局来重建它们的结构，但是不保证一定能工作。我知道这样很难看，但是，PDF确实不够规范。

更多关于PDF内部结构的技术详情，请见《如何手工提取PDF内容》。

http://www.youtube.com/watch?v=k34wRxaxA_c http://www.youtube.com/watch?v=_A1M4OdNsiQ http://www.youtube.com/watch?v=sfV_7cWPgZE

由于PDF文件有如此大和复杂的结构，完整解析PDF文件很费时费力。好吧，大多数PDF工作中，很多模块是不需要加进来的。因此 PDFMiner 采用了一个懒惰分析的策略，就是只分析所需要的部分。解析时候，至少需要2个核心类，PDFParser 和 PDFDocument。这两个模块配合其他模块来使用。

PDFParser 从文件中获取数据

PDFDocument 存储文档数据结构到内存中

PDFPageInterpreter 解析page内容

PDFDevice 把解析到的内容转化为你需要的东西

PDFResourceManager存储共享资源，例如字体或图片

下图显示了PDFMiner中各个类之间的关系。

下面是解析pdf的一个典型方法：

布局分析把pdf文档中每一页返回为一个 LTPage 对象. 该对象包含该页面中的子对象，格式化为树形结构。

下图显示了这些对象之间的关系。

LTPage

代表一个完整的页面。可以包含子对象，例如LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine.

LTTextBox
它包含 LTTextLine 对象的列表
代表一组被包含在矩形区域中的文本
需要注意的是，该box是根据几何学分析得到的，并不一定准确地表现为该文本的逻辑范围
get_text()方法可以返回文本内容

LTTextLine
包含一个LTChar对象的列表，表现为单行文本
字符表现为一行或一列，取决于文本书写方式
get_text()方法返回文本内容

LTChar / LTAnno
代表一个在文本中的真实的字母，作为一个unicode字符串
LTChar 对象有真实的分隔符
LTAnno 对象没有，是虚拟分隔符，按照两个字符之间的关系，布局分析器插入虚拟分隔符

LTFigure
代表一个被PDF Form对象使用的区域
pdf form适用于目前的图表(present figures)或者页面中植入的另一个pdf文档图片。LTFigure对象可以递归

LTImage
代表一个图形对象。可以是JPEG或者其他格式，但PDFMiner目前没有花太多精力在图形对象上。

LTLine
代表一根直线。用来分割文本或图表(figures)。

LTRect
代表一个矩形。
用来框住别的图片或者图表。

LTCurve
代表一个贝塞尔曲线。

也可以从下面URL获得更多完整的示例。

http://denis.papathanasiou.org/?p=343

获得目录

PDF文档没有目录时会报：
raise PDFNoOutlines

pdfminer.pdfdocument.PDFNoOutlines

一些pdf文档使用页号作为目录指向，另外的文档则使用页号和页面中的物理位置。由于pdf文档没有逻辑结构，并且不支持从外部指向页内对象，所以没有办法准确告知这些目录指向文本的哪一部分。

你可以扩展PDFPageinterpreter类和PDFDevice类以便进行不同的加工，或者获得其他信息。

❸ pdf文件怎么打开详解pdf文件打开方法

一、使用Adobe Acrobat Reader打开PDF文件

四、使用移动设备打开PDF文件

Adobe Acrobat Reader是一款免费的PDF文件阅读器，它是由Adobe公司开发的，可以在官网上免费下载。安装好后，打开该软件，然后选择“文件”菜单，再选择“打开”，就可以选择需要打开的PDF文件进行阅读了。

总之，打开PDF文件的方法有很多种，根据不同的需求可以选择不同的方式进行阅首铅读。希望本文能够帮助大家更好地打开和阅读PDF文件。

如者渗好果你的电脑上没有安装Adobe Acrobat Reader，也可以通过浏览器打开PDF文件。目前大多数的浏览器都支持PDF文件的在线阅读，比如Chrome、Firefox、Edge等。只需要在浏览器中输入PDF文件的网址或者在浏喊袜览器中直接打开PDF文件，就可以进行阅读了。

❹ 为什么有些pdf打印解析几百兆特别慢

pdf本身可能文件较大，并且为图片模式，打印机识别较慢，这应该是正常现象。
解决方法是：点击“开始→设置→打印机和传真”，然后右击需要打印的打印机选择“属性”，在弹出窗口的“高级”选项卡中选择“直接打印到打印机”，点击“确定”后速度就提高了。

❺ pdf文档无法解析什么原因

是文件本身问题。是不是文件太大或者是里面插入的东西跟pdf有冲突。

❻ 如何创建pdf的buffer，让pdf.js实现预览pdf文件

PDF.js 是基于开放的 HTML5 及 JavaScript 技术实现的开源产品。简单说就是一个 PDF 解析器。运用HTML5JavaScript（即pdf.js仅使用安全的web语言，不包含任何攻击者可以用的本地代码块）的PDF阅读器pdf.js，直接在标准的HTML页面上载入和渲染PDF文件, 还可以提高安全性（不需要安装第三方插件，安全性由浏览器保证），浏览器所做的安全措施已经为pdf.js提供了安全的运行环境。其对IE和 FireFox浏览器的要求是IE9+, FireFox19+。
在线示例： http://jsbin.com/pdfjs-helloworld-v2/1/edit ， http://jsbin.com/pdfjs-prevnext-v2/1/edit
源码：https://github.com/mozilla/pdf.js
官网：http://mozilla.github.io/pdf.js/

pdf.js VS 传统浏览器读取pdf

一般来说，PDF档案格式都是在浏览器中由外挂程式来描绘，通常是Adobe自己的PDF reader或来自其他供应商的描绘工具，但这些外挂通常无法充分运用PDF的特点，而且由于含有大量的受信任代码，使得Google Chrome浏览器必须运用SandBox沙箱原理，来检查PDF描绘工具是否遭到未知病毒感染。
使用adobe，必须在本地安装软件才能使用，而pdf.js不依赖环境、渲染速度快（测试过，确实很快）、安全性高。

pdf.js渲染PDF文件
pdf.js渲染PDF文件的流程：Fetch pdf (url / buffer) ——> canvas ——> 渲染
如果要深入pdf的渲染，需要去研究pdf.js源代码。pdf.js可通过pdf文件的地址或pdf数据流获取pdf，具体实现是调用接口函数 PDFJs.getDoc(url/buffer)将pdf载入html，通过canvas处理, 然后渲染pdf文件。网上给出的都是通过url来获取pdf的例子，而我在做项目的时候，后台（python）要求是发pdf的数据流给前台，前台接收pdf的buffer,然后通过pdf.js来渲染。当然最初尝试buffer出现了很多问题，具体问题总结如下：
1）如何通过$.ajax接收后台发给前台的buffer数据；
2）如何将buffer传给pdf.js来处理（这里我使用了viewer.js, 所以需要考虑的是如何将buffer传给viewer.js来处理）；
3）如何将pdf.js转换成pdf.js可以接收的buffer格式；
（对应问题解决见代码注释）
注：viewer.js是pdf.js的扩展，其将打印、翻页、缩放等功能进行了实现，且界面非常好看。也就是说如果你引入了viewer.js，pdf的渲染和渲染之后的功能界面都已经帮你实现了，你不用自己去写界面。

先从官网：http://mozilla.github.io/pdf.js/ 下载代码，然后使用文件viewer.html , 我的html就是在viewer.html 的基础上修改的，下面我给出buffer的例子：
<!DOCTYPE html>
<html dir="ltr" mozdisallowselectionprint moznomarginboxes>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
<meta name="google" content="notranslate">
<title>在线预览</title>
{% load static %}{% get_static_prefix as STATIC_URL %}
<link href="{{STATIC_URL}}css/preview.css" rel="stylesheet" type="text/css" />
<link rel="stylesheet" href="{{STATIC_URL}}pdfjs/web/viewer.css"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/compatibility.js"></script>
<link rel="resource" type="application/l10n" href="{{STATIC_URL}}pdfjs/web/locale/locale.properties"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/l10n.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/build/pdf.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/debugger.js"></script>
<script src="{{STATIC_URL}}js/jquery-1.8.3.js" type="text/javascript"></script>
<script type="text/javascript">

//convertDataURIToBinary()
//不知道什么原因如果后台直接将pdf的数据流发给前台，得到的是乱码，将数据转换成 Uint8Array始终不成功
//所以就让后台将发送之前的数据流做了base64编码发给前台，前台再解码得到的数据就不是乱码了。
var BASE64_MARKER = ';base64,';

var preFileId = {{mark}};

//viewer.js全局变量,传入buffer，回答问题2
var DEFAULT_URL

$(document).ready(function(){
$.ajax({
type:"post",
async: false,
//ajax接收pdf数据流，注意dataType值的设置是否有错，如果不指定，jQuery将自动根据HTTP包MIME信息返回
//responseXML或responseText . 回答问题1
contentType:"application/pdf;charset=utf-8",
url:"{% url netPan.File.views.browserFuf%}",
data:{
id: preFileId
},
success:function(data){
var pdfAsDataUri = data;
//如果引入了viewer.js , 处理方法
var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);
DEFAULT_URL = pdfAsArray;
// 只引入了pdf.js, 未引入viewer.js，处理方法
// var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);
// PDFJS.getDocument（pdfAsArray).then(); 自己写pdf的处理函数
}
});
});

function convertDataURIToBinary(dataURI) { //编码转换，回答问题3
var base64Index = dataURI.indexOf(BASE64_MARKER) + BASE64_MARKER.length;
var base64 = dataURI.substring(base64Index);
var raw = window.atob(base64);
var rawLength = raw.length;

//转换成pdf.js能直接解析的Uint8Array类型,见pdf.js-4068
var array = new Uint8Array(new ArrayBuffer(rawLength));

for(i = 0; i < rawLength; i++) {
array[i] = raw.charCodeAt(i);
}
return array;
}
</script>


<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/viewer.js"></script>
</head>

<body>
省略内容
</body>
</html>

❼ java解析pdf文件，求大神提供代码，请注意是java语言的

给你提供一个参考例子，你可以在这个例子上试试，修改修改。也是解析PDF的。

importjava.io.File;
importjava.io.FileOutputStream;
importjava.io.OutputStreamWriter;
importjava.io.Writer;
importjava.net.MalformedURLException;
importjava.net.URL;
importorg.apache.pdfbox.pdmodel.PDDocument;
importorg.apache.pdfbox.util.PDFTextStripper;
publicclassPdfReader{
publicvoidreadFdf(Stringfile)throwsException{
//是否排序
booleansort=false;
//pdf文件名
StringpdfFile=file;
//输入文本文件名称
StringtextFile=null;
//编码方式
Stringencoding="UTF-8";
//开始提取页数
intstartPage=1;
//结束提取页数
intendPage=Integer.MAX_VALUE;
//文件输入流，生成文本文件
Writeroutput=null;
//内存中存储的PDFDocument
PDDocumentdocument=null;
try{
try{
//首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件
URLurl=newURL(pdfFile);
//注意参数已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
//获取PDF的文件名
StringfileName=url.getFile();
//以原来PDF的名称来命名新产生的txt文件
if(fileName.length()>4){
FileoutputFile=newFile(fileName.substring(0,fileName
.length()-4)
+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLExceptione){
//如果作为URL装载得到异常则从文件系统装载
//注意参数已不是以前版本中的URL.而是File。
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile=pdfFile.substring(0,pdfFile.length()-4)
+".txt";
}
}
//文件输入流，写入文件倒textFile
output=newOutputStreamWriter(newFileOutputStream(textFile),
encoding);
//PDFTextStripper来提取文本
PDFTextStripperstripper=null;
stripper=newPDFTextStripper();
//设置是否排序
stripper.setSortByPosition(sort);
//设置起始页
stripper.setStartPage(startPage);
//设置结束页
stripper.setEndPage(endPage);
//调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document,output);
}finally{
if(output!=null){
//关闭输出流
output.close();
}
if(document!=null){
//关闭PDFDocument
document.close();
}
}
}
/**
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
PdfReaderpdfReader=newPdfReader();
try{
//取得E盘下的SpringGuide.pdf的内容
pdfReader.readFdf("d:\b.pdf");
}catch(Exceptione){
e.printStackTrace();
}
}
}

❽ 用java如何解析pdf文件

一、前言

在企业的信息系统中，报表处理一直占比较重要的作用，本文将介绍一种生成PDF报表的Java组件--iText。通过在服务器端使用Jsp或JavaBean生成PDF报表，客户端采用超级连接显示或下载得到生成的报表，这样就很好的解决了B/S系统的报表处理问题。

二、iText简介

iText是着名的开放源码的站点sourceforge一个项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。

iText的安装非常方便，在http://www.lowagie.com/iText/download.html - download 网站上下载iText.jar文件后，只需要在系统的CLASSPATH中加入iText.jar的路径，在程序中就可以使用iText类库了。

三、建立第一个PDF文档

用iText生成PDF文档需要5个步骤：

①建立com.lowagie.text.Document对象的实例。

Document document = new Document();

②建立一个书写器(Writer)与document对象关联，通过书写器(Writer)可以将文档写入到磁盘中。

PDFWriter.getInstance(document, new FileOutputStream("Helloworld.PDF"));

③打开文档。

document.open();

④向文档中添加内容。

document.add(new Paragraph("Hello World"));

⑤关闭文档。

document.close();

通过上面的5个步骤，就能产生一个Helloworld.PDF的文件，文件内容为"Hello World"。

建立com.lowagie.text.Document对象的实例

com.lowagie.text.Document对象的构建函数有三个，分别是：

public Document();
public Document(Rectangle pageSize);
public Document(Rectangle pageSize,
int marginLeft,
int marginRight,
int marginTop,
int marginBottom);

构建函数的参数pageSize是文档页面的大小，对于第一个构建函数，页面的大小为A4，同Document(PageSize.A4)的效果一样；对于第三个构建函数，参数marginLeft、marginRight、marginTop、marginBottom分别为左、右、上、下的页边距。

通过参数pageSize可以设定页面大小、面背景色、以及页面横向/纵向等属性。iText定义了A0-A10、AL、LETTER、HALFLETTER、_11x17、LEDGER、NOTE、B0-B5、ARCH_A-ARCH_E、FLSA 和FLSE等纸张类型，也可以通过Rectangle pageSize = new Rectangle(144, 720);自定义纸张。通过Rectangle方法rotate()可以将页面设置成横向。

书写器（Writer）对象

一旦文档(document)对象建立好之后，需要建立一个或多个书写器(Writer)对象与之关联。通过书写器(Writer)对象可以将具体文档存盘成需要的格式，如com.lowagie.text.PDF.PDFWriter可以将文档存成PDF文件，com.lowagie.text.html.HtmlWriter可以将文档存成html文件。

设定文档属性

在文档打开之前，可以设定文档的标题、主题、作者、关键字、装订方式、创建者、生产者、创建日期等属性，调用的方法分别是：

public boolean addTitle(String title)
public boolean addSubject(String subject)
public boolean addKeywords(String keywords)
public boolean addAuthor(String author)
public boolean addCreator(String creator)
public boolean addProcer()
public boolean addCreationDate()
public boolean addHeader(String name, String content)

其中方法addHeader对于PDF文档无效，addHeader仅对html文档有效，用于添加文档的头信息。
当新的页面产生之前，可以设定页面的大小、书签、脚注（HeaderFooter）等信息，调用的方法是：

public boolean setPageSize(Rectangle pageSize)
public boolean add(Watermark watermark)
public void removeWatermark()
public void setHeader(HeaderFooter header)
public void resetHeader()
public void setFooter(HeaderFooter footer)
public void resetFooter()
public void resetPageCount()
public void setPageCount(int pageN)

如果要设定第一页的页面属性，这些方法必须在文档打开之前调用。

对于PDF文档，iText还提供了文档的显示属性，通过调用书写器的setViewerPreferences方法可以控制文档打开时Acrobat Reader的显示属性，如是否单页显示、是否全屏显示、是否隐藏状态条等属性。

另外，iText也提供了对PDF文件的安全保护，通过书写器（Writer）的setEncryption方法，可以设定文档的用户口令、只读、可打印等属性。

添加文档内容

所有向文档添加的内容都是以对象为单位的，如Phrase、Paragraph、Table、Graphic对象等。比较常用的是段落(Paragraph)对象，用于向文档中添加一段文字。

四、文本处理

iText中用文本块(Chunk)、短语(Phrase)和段落(paragraph)处理文本。
文本块(Chunk)是处理文本的最小单位，有一串带格式（包括字体、颜色、大小）的字符串组成。如以下代码就是产生一个字体为HELVETICA、大小为10、带下划线的字符串：

Chunk chunk1 = new Chunk("This text is underlined", FontFactory.getFont(FontFactory.HELVETICA, 12, Font.UNDERLINE));

短语(Phrase)由一个或多个文本块(Chunk)组成，短语(Phrase)也可以设定字体，但对于其中以设定过字体的文本块(Chunk)无效。通过短语(Phrase)成员函数add可以将一个文本块(Chunk)加到短语(Phrase)中，如：phrase6.add(chunk);

段落(paragraph)由一个或多个文本块(Chunk)或短语(Phrase)组成，相当于WORD文档中的段落概念，同样可以设定段落的字体大小、颜色等属性。另外也可以设定段落的首行缩进、对齐方式（左对齐、右对齐、居中对齐）。通过函数setAlignment可以设定段落的对齐方式，setAlignment的参数1为居中对齐、2为右对齐、3为左对齐，默认为左对齐。

五、表格处理

iText中处理表格的类为：com.lowagie.text.Table和com.lowagie.text.PDF.PDFPTable，对于比较简单的表格处理可以用com.lowagie.text.Table，但是如果要处理复杂的表格，这就需要com.lowagie.text.PDF.PDFPTable进行处理。这里就类com.lowagie.text.Table进行说明。

类com.lowagie.text.Table的构造函数有三个：

①Table (int columns)
②Table(int columns, int rows)
③Table(Properties attributes)

参数columns、rows、attributes分别为表格的列数、行数、表格属性。创建表格时必须指定表格的列数，而对于行数可以不用指定。

建立表格之后，可以设定表格的属性，如：边框宽度、边框颜色、衬距（padding space 即单元格之间的间距）大小等属性。下面通过一个简单的例子说明如何使用表格，代码如下：

1:Table table = new Table(3);
2:table.setBorderWidth(1);
3:table.setBorderColor(new Color(0, 0, 255));
4:table.setPadding(5);
5:table.setSpacing(5);
6:Cell cell = new Cell("header");
7:cell.setHeader(true);
8:cell.setColspan(3);
9:table.addCell(cell);
10:table.endHeaders();
11:cell = new Cell("example cell with colspan 1 and rowspan 2");
12:cell.setRowspan(2);
13:cell.setBorderColor(new Color(255, 0, 0));
14:table.addCell(cell);
15:table.addCell("1.1");
16:table.addCell("2.1");
17:table.addCell("1.2");
18:table.addCell("2.2");
19:table.addCell("cell test1");
20:cell = new Cell("big cell");
21:cell.setRowspan(2);
22:cell.setColspan(2);
23:table.addCell(cell);
24:table.addCell("cell test2");

运行结果如下：

header
example cell with colspan 1 and rowspan 2 1.1 2.1
1.2 2.2
cell test1 big cell
cell test2

代码1-5行用于新建一个表格，如代码所示，建立了一个列数为3的表格，并将边框宽度设为1，颜色为蓝色，衬距为5。

代码6-10行用于设定表格的表头，第7行cell.setHeader(true);是将该单元格作为表头信息显示；第8行cell.setColspan(3);指定了该单元格占3列；为表格添加表头信息时，要注意的是一旦表头信息添加完了之后，必须调用endHeaders()方法，如第10行，否则当表格跨页后，表头信息不会再显示。

代码11-14行是向表格中添加一个宽度占一列，长度占二行的单元格。

往表格中添加单元格(cell)时，按自左向右、从上而下的次序添加。如执行完11行代码后，表格的右下方出现2行2列的空白，这是再往表格添加单元格时，先填满这个空白，然后再另起一行，15-24行代码说明了这种添加顺序。

六、图像处理

iText中处理表格的类为com.lowagie.text.Image，目前iText支持的图像格式有：GIF, Jpeg, PNG, wmf等格式，对于不同的图像格式，iText用同样的构造函数自动识别图像格式。通过下面的代码分别获得gif、jpg、png图像的实例。

Image gif = Image.getInstance("vonnegut.gif");
Image jpeg = Image.getInstance("myKids.jpg");
Image png = Image.getInstance("hitchcock.png");

图像的位置

图像的位置主要是指图像在文档中的对齐方式、图像和文本的位置关系。IText中通过函数public void setAlignment(int alignment)进行处理，参数alignment为Image.RIGHT、Image.MIDDLE、Image.LEFT分别指右对齐、居中、左对齐；当参数alignment为Image.TEXTWRAP、Image.UNDERLYING分别指文字绕图形显示、图形作为文字的背景显示。这两种参数可以结合以达到预期的效果，如setAlignment(Image.RIGHT|Image.TEXTWRAP)显示的效果为图像右对齐，文字围绕图像显示。

图像的尺寸和旋转

如果图像在文档中不按原尺寸显示，可以通过下面的函数进行设定：

public void scaleAbsolute(int newWidth, int newHeight)
public void scalePercent(int percent)
public void scalePercent(int percentX, int percentY)

函数public void scaleAbsolute(int newWidth, int newHeight)直接设定显示尺寸；函数public void scalePercent(int percent)设定显示比例，如scalePercent(50)表示显示的大小为原尺寸的50%；而函数scalePercent(int percentX, int percentY)则图像高宽的显示比例。

如果图像需要旋转一定角度之后在文档中显示，可以通过函数public void setRotation(double r)设定，参数r为弧度，如果旋转角度为30度，则参数r= Math.PI / 6。

七、中文处理

默认的iText字体设置不支持中文字体，需要下载远东字体包iTextAsian.jar，否则不能往PDF文档中输出中文字体。通过下面的代码就可以在文档中使用中文了：

BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", BaseFont.NOT_EMBEDDED);
com.lowagie.text.Font FontChinese = new com.lowagie.text.Font(bfChinese, 12, com.lowagie.text.Font.NORMAL);
Paragraph pragraph=new Paragraph("你好", FontChinese);

八、后计

iText还有很多高级的功能，这里就不一一介绍了，具体开发时可参考发布的文档。总的来说，iText是一套java环境下不错的制作PDF的组件。因为iText支持jsp/javabean下的开发，这使得B/S应用中的报表问题能得到很好的解决。由于iText毕竟不是专门为制作报表设计，所有报表中的内容、格式都需要通过写代码实现，相对于那些专业的支持可视化设计的报表软件来说，编程的工作量就有一定程度的增加。

导航:首页 > 文档加密 > pdf流解析

pdf流解析

一、使用Adobe Acrobat Reader打开PDF文件

四、使用移动设备打开PDF文件

与pdf流解析相关的资料