javahtml格式化_java中html字符串如何完美转换成pdf文件

‘壹’ 如何在java中实现自动生成html

创建一个StringBuilder对象，通过append方法来为其添加html语句。
StringBuilder sb = new StringBuilder();
Properties fileProperties = getProperties("file");
Properties sqlProperties = getProperties("sql");
PrintStream printStream = new PrintStream(new FileOutputStream(
"report.html"));
sb.append("<html>");
sb.append("<head>");
sb.append("<title>每日运营报表</title>");
sb.append("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />");
sb.append("<style type=\"text/css\">");
sb.append("TABLE{border-collapse:collapse;border-left:solid 1 #000000; border-top:solid 1 #000000;padding:5px;}");
sb.append("TH{border-right:solid 1 #000000;border-bottom:solid 1 #000000;}");
sb.append("TD{font:normal;border-right:solid 1 #000000;border-bottom:solid 1 #000000;}");
sb.append("</style></head>");
sb.append("<body bgcolor=\"#FFF8DC\">");
sb.append("<div align=\"center\">");
sb.append("<br/>");
sb.append("<br/>");
List<Map<String, Object>> result1 = getRpt(sqlProperties
.getProperty("sql1"));
for (Map.Entry<String, Object> m : result1.get(0).entrySet()) {
sb.append(fileProperties.getProperty("file1"));
sb.append(m.getValue());
}
sb.append("<br/><br/>");

输出
sb.append("</div></body></html>");
printStream.println(sb.toString());

‘贰’ java中几种解析html的工具

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla";
Document doc = JSoup.parse(content);
Elements links = doc.select("a[href]");

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持pdf、Zip甚至是JavaClass。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null;

HtmlParser htmlParser = new HtmlParser();

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext());

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

‘叁’ 脚本语言和java语言有什么区别

脚本语言又被称为扩建的语言，或者动态语言，是一种编程语言，用来控制软件应用程序，脚本通常以文本(如ASCII)保存，只在被调用时进行解释或编译。

Java是一种可以撰写跨平台应用程序的面向对象的程序设计语言。Java
技术具有卓越的通用性、高效性、平台移植性和安全性，广泛应用于PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网，同时拥有全球最大的开发者专业社群。

脚本语言和Java语言的区别：

1、用脚本语言开发的程序在执行时，由其所对应的解释器(或称虚拟机)解释执行。系统程序设计语言是被预先编译成机器语言而执行的。脚本语言的主要特征是：程序代码即是脚本程序，亦是最终可执行文件。脚本语言可分为独立型和嵌入型，独立型脚本语言在其执行时完全依赖于解释器，而嵌入型脚本语言通常在编程语言中(如C，C++，VB，Java等)被嵌入使用。

2、脚本语言是被解释，而系统程序设计语言是被编译。被解释的语言由于没有编译时间而提供快速的转换，通过允许用户运行时编写应用程序，而不需要耗时的编译/打包过程。解释器使应用程序更加灵活，脚本语言的代码能够被实时生成和执行。脚本语言通常都有简单、易学、易用的特性，目的就是希望能让程序设计师快速完成程序的编写工作。

‘肆’ java保存到html代码

java保存到html代郑启码的步骤如下：
1、创建一档袭个字符串变量，该变量包含要保存为html的内容。
2、使用JavaIO库中的FileWriter类创建一个新的文件，用于保存html代码。
3、将喊蠢如html代码写入文件中。使用FileWriter类的write()方法将html代码写入文件中。
4、关闭文件。使用FileWriter类的close()方法关闭文件。
5、完成以上步骤后，就可以在Java程序中将字符串保存为html代码了，需要注意的是，保存的文件格式必须是html，否则在浏览器中打开时会出现错误。

‘伍’ 如何在java中简写out.println输出html元素

Stringhtml="<html><head><title>...</title></head><body>...</body></html>"
response.getWriter().println(html);

如果你觉得字符串这样写太长了，你也可以采用下面这种方法

StringBuilderhtml=newStringBuilder();
html.append("<html>");
html.append("<head>");
...
html.append("</html>");
response.getWriter().println(html.toString());

‘陆’ java中html字符串如何完美转换成pdf文件

1、首先导入itext的jar包，
然后直接上代码
private static void versionsone(String htmlCode, String pdfPath){
Document document = new Document();
try{
StyleSheet st = new StyleSheet();
st.loadTagStyle("body", "leading", "16,0");
PdfWriter.getInstance(document, new FileOutputStream(pdfPath));
document.open();
BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", BaseFont.NOT_EMBEDDED);
Font FontChinese = new Font(bfChinese, 12, Font.NORMAL);
ArrayList<ArrayList> p = HTMLWorker.parseToList(dome_2(htmlCode), st);
for(int k=0;k<p.size();k++){
for(int m=0;m<p.get(k).size();m++){
Paragraph pCode = new Paragraph(p.get(k).get(m).toString(),FontChinese);
document.add(pCode);
}
}
}catch(Exception e){
e.printStackTrace();
}finally{
document.close();
}
}

private static Reader dome_2(String htmlCode){
if(htmlCode != null && !htmlCode.trim().equals("")){
try{
InputStream tInputStringStream = new ByteArrayInputStream(htmlCode.getBytes());
InputStreamReader isr = new InputStreamReader(tInputStringStream,"utf-8");
BufferedReader reader = new BufferedReader(isr);
return reader;
}catch(Exception e){
e.printStackTrace();
}

}
return null;
}
其实此处和别人的最大的不一样的是，
ArrayList<ArrayList> p = HTMLWorker.parseToList(dome_2(htmlCode), st);

其实刚刚开始我在网上找来的代码中是这样写的“ArrayList p = HTMLWorker.parseToList(dome_2(htmlCode), st);”
但后来我通过debug发现，ArrayList 里面装的还是一个集合，然后集合中放得才是真正不含html标签的字符串。对于普通得文章，一般html标签一般都是<p></p>
占大多数。所以我直接用了两层for循环直接从里面取得我们想要的字符串。然后直接“Paragraph pCode = new Paragraph(p.get(k).get(m).toString(),FontChinese);”document.add(pCode);这样就能解决中文问题了

导航:首页 > 编程语言 > javahtml格式化

javahtml格式化

与javahtml格式化相关的资料