导航:首页 > 编程语言 > java网页解析

java网页解析

发布时间:2023-03-02 22:40:16

java根据url抓取html页面内容,怎么解析chunked 方式

先获取页面
String html = getContent(url, Constants.ENCODING_UTF8);
解析页面 Document doc=Jsoup.parse(html);
然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text();
如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,

⑵ java中几种解析html的工具

HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:

1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla";
Document doc = JSoup.parse(content);
Elements links = doc.select("a[href]");

⑶ java中如何解析页面传入的url

public class CRequest {

/**
* 解析出url请求的路径,包括页面
* @param strURL url地址
* @return url路径
*/
public static String UrlPage(String strURL)
{
String strPage=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>0)
{
if(arrSplit.length>1)
{
if(arrSplit[0]!=null)
{
strPage=arrSplit[0];
}
}
}

return strPage;
}
/**
* 去掉url中的路径,留下请求参数部分
* @param strURL url地址
* @return url请求参数部分
*/
private static String TruncateUrlPage(String strURL)
{
String strAllParam=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>1)
{
if(arrSplit.length>1)
{
if(arrSplit[1]!=null)
{
strAllParam=arrSplit[1];
}
}
}

return strAllParam;
}
/**
* 解析出url参数中的键值对
* 如 "index.jsp?Action=del&id=123",解析出Action:del,id:123存入map中
* @param URL url地址
* @return url请求参数部分
*/
public static Map<String, String> URLRequest(String URL)
{
Map<String, String> mapRequest = new HashMap<String, String>();

String[] arrSplit=null;

String strUrlParam=TruncateUrlPage(URL);
if(strUrlParam==null)
{
return mapRequest;
}
//每个键值为一组
arrSplit=strUrlParam.split("[&]");
for(String strSplit:arrSplit)
{
String[] arrSplitEqual=null;
arrSplitEqual= strSplit.split("[=]");

//解析出键值
if(arrSplitEqual.length>1)
{
//正确解析
mapRequest.put(arrSplitEqual[0], arrSplitEqual[1]);

}
else
{
if(arrSplitEqual[0]!="")
{
//只有参数没有值,不加入
mapRequest.put(arrSplitEqual[0], "");
}
}
}
return mapRequest;
}

}

public class TestCRequest {
/**用于测试CRequest类
* @param args
*/
public static void main(String[] args) {
// 请求url
String str = "index.jsp?Action=del&id=123&sort=";

//url页面路径
System.out.println(CRequest.UrlPage(str));

//url参数键值对
String strRequestKeyAndValues="";
Map<String, String> mapRequest = CRequest.URLRequest(str);

for(String strRequestKey: mapRequest.keySet()) {
String strRequestValue=mapRequest.get(strRequestKey);
strRequestKeyAndValues+="key:"+strRequestKey+",Value:"+strRequestValue+";";

}
System.out.println(strRequestKeyAndValues);

//获取无效键时,输出null
System.out.println(mapRequest.get("page"));
}
}

阅读全文

与java网页解析相关的资料

热点内容
购买浪潮服务器如何部署云 浏览:359
把pdf转为word的软件 浏览:799
程序员去面试产品经理 浏览:463
魏晋玄学pdf 浏览:160
单片机步进电机接线图 浏览:148
如何关闭安卓通话设置 浏览:417
方舟生存进化云服务器配置 浏览:216
微信app广告的广告主是什么 浏览:984
java两个队列实现栈 浏览:700
先学c语言还是单片机 浏览:48
服务器的全称和英文是什么 浏览:23
zip包解压库java 浏览:498
白嫖pdf 浏览:482
有什么app可以控制空调的 浏览:863
python标识符可以有减号 浏览:911
股票kd中k值完整算法 浏览:74
mysqlmac命令行启动 浏览:708
app会闪退怎么办啊 浏览:415
济宁程序员培训 浏览:678
世界五千年pdf 浏览:155