java网页解析_java中几种解析html的工具

⑴ java根据url抓取html页面内容，怎么解析chunked 方式

先获取页面
String html = getContent(url, Constants.ENCODING_UTF8);
解析页面 Document doc=Jsoup.parse(html);
然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text();
如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,

⑵ java中几种解析html的工具

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla";
Document doc = JSoup.parse(content);
Elements links = doc.select("a[href]");

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是JavaClass。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null;

HtmlParser htmlParser = new HtmlParser();

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext());

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

⑶ java中如何解析页面传入的url

public class CRequest {

/**
* 解析出url请求的路径，包括页面
* @param strURL url地址
* @return url路径
*/
public static String UrlPage(String strURL)
{
String strPage=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>0)
{
if(arrSplit.length>1)
{
if(arrSplit[0]!=null)
{
strPage=arrSplit[0];
}
}
}

return strPage;
}
/**
* 去掉url中的路径，留下请求参数部分
* @param strURL url地址
* @return url请求参数部分
*/
private static String TruncateUrlPage(String strURL)
{
String strAllParam=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>1)
{
if(arrSplit.length>1)
{
if(arrSplit[1]!=null)
{
strAllParam=arrSplit[1];
}
}
}

return strAllParam;
}
/**
* 解析出url参数中的键值对
* 如 "index.jsp?Action=del&id=123"，解析出Action:del,id:123存入map中
* @param URL url地址
* @return url请求参数部分
*/
public static Map<String, String> URLRequest(String URL)
{
Map<String, String> mapRequest = new HashMap<String, String>();

String[] arrSplit=null;

String strUrlParam=TruncateUrlPage(URL);
if(strUrlParam==null)
{
return mapRequest;
}
//每个键值为一组
arrSplit=strUrlParam.split("[&]");
for(String strSplit:arrSplit)
{
String[] arrSplitEqual=null;
arrSplitEqual= strSplit.split("[=]");

//解析出键值
if(arrSplitEqual.length>1)
{
//正确解析
mapRequest.put(arrSplitEqual[0], arrSplitEqual[1]);

}
else
{
if(arrSplitEqual[0]!="")
{
//只有参数没有值，不加入
mapRequest.put(arrSplitEqual[0], "");
}
}
}
return mapRequest;
}

}

public class TestCRequest {
/**用于测试CRequest类
* @param args
*/
public static void main(String[] args) {
// 请求url
String str = "index.jsp?Action=del&id=123&sort=";

//url页面路径
System.out.println(CRequest.UrlPage(str));

//url参数键值对
String strRequestKeyAndValues="";
Map<String, String> mapRequest = CRequest.URLRequest(str);

for(String strRequestKey: mapRequest.keySet()) {
String strRequestValue=mapRequest.get(strRequestKey);
strRequestKeyAndValues+="key:"+strRequestKey+",Value:"+strRequestValue+";";

}
System.out.println(strRequestKeyAndValues);

//获取无效键时，输出null
System.out.println(mapRequest.get("page"));
}
}

热点内容

购买浪潮服务器如何部署云发布：2025-01-28 09:57:31 浏览：359

把pdf转为word的软件发布：2025-01-28 09:43:33 浏览：799

程序员去面试产品经理发布：2025-01-28 09:42:55 浏览：463

魏晋玄学pdf 发布：2025-01-28 09:33:22 浏览：160

单片机步进电机接线图发布：2025-01-28 09:32:09 浏览：148

如何关闭安卓通话设置发布：2025-01-28 09:20:32 浏览：417

方舟生存进化云服务器配置发布：2025-01-28 09:16:21 浏览：216

微信app广告的广告主是什么发布：2025-01-28 09:05:11 浏览：984

java两个队列实现栈发布：2025-01-28 09:05:10 浏览：700

先学c语言还是单片机发布：2025-01-28 08:59:55 浏览：48

服务器的全称和英文是什么发布：2025-01-28 08:56:58 浏览：23

zip包解压库java 发布：2025-01-28 08:54:53 浏览：498

白嫖pdf 发布：2025-01-28 08:54:50 浏览：482

有什么app可以控制空调的发布：2025-01-28 08:50:55 浏览：863

python标识符可以有减号发布：2025-01-28 08:49:09 浏览：911

股票kd中k值完整算法发布：2025-01-28 08:40:33 浏览：74

mysqlmac命令行启动发布：2025-01-28 08:38:54 浏览：708

app会闪退怎么办啊发布：2025-01-28 08:36:20 浏览：415

济宁程序员培训发布：2025-01-28 08:25:03 浏览：678

世界五千年pdf 发布：2025-01-28 08:24:51 浏览：155

导航:首页 > 编程语言 > java网页解析

java网页解析

与java网页解析相关的资料