java網頁解析_java中幾種解析html的工具

⑴ java根據url抓取html頁面內容，怎麼解析chunked 方式

先獲取頁面
String html = getContent(url, Constants.ENCODING_UTF8);
解析頁面 Document doc=Jsoup.parse(html);
然後你獲取相應的標簽String tag =doc.getElementsByTag("title").first().text();
如果標簽很多不一樣你就得判斷了,還有看看有什麼相同的地方吧,我抓取網頁數據的時候最煩的就是格式不一樣的,好多標簽不一樣的,只能判斷,找到共同點,個別的單個處理,

⑵ java中幾種解析html的工具

HTML分析是一個比較復雜的工作，Java世界主要有幾款比較方便的分析工具：

1.Jsoup
Jsoup是一個集強大和便利於一體的HTML解析工具。它方便的地方是，可以用於支持用jQuery中css selector的方式選取元素，這對於熟悉js的開發者來說基本沒有學習成本。

String content = "blabla";
Document doc = JSoup.parse(content);
Elements links = doc.select("a[href]");

Jsoup還支持白名單過濾機制，對於網站防止XSS攻擊也是很好的。

2.HtmlParser

HtmlParser的功能比較完備，也挺靈活，但談不上方便。這個項目很久沒有維護了，最新版本是2.1。HtmlParser的核心元素是Node，對應一個HTML標簽，支持getChildren()等樹狀遍歷方式。HtmlParser另外一個核心元素是NodeFilter，通過實現NodeFilter介面，可以對頁面元素進行篩選。這里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 實現簡易爬蟲。

3.Apache tika

tika是專為抽取而生的工具，還支持PDF、Zip甚至是JavaClass。使用tika分析HTML，需要自己定義一個抽取內容的Handler並繼承org.xml.sax.helpers.DefaultHandler，解析方式就是xml標準的方式。crawler4j中就使用了tika作為解析工具。SAX這種流式的解析方式對於分析大文件很有用，我個人倒是認為對於解析html意義不是很大。

InputStream inputStream = null;

HtmlParser htmlParser = new HtmlParser();

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext());

4.HtmlCleaner與XPath

HtmlCleaner最大的優點是：支持XPath的方式選取元素。XPath是一門在XML中查找信息的語言，也可以用於抽取HTML元素。XPath與CSS Selector大部分功能都是重合的，但是CSS Selector專門針對HTML，寫法更簡潔，而XPath則是通用的標准，可以精確到屬性值。XPath有一定的學習成本，但是對經常需要編寫爬蟲的人來說，這點投入絕對是值得的。

⑶ java中如何解析頁面傳入的url

public class CRequest {

/**
* 解析出url請求的路徑，包括頁面
* @param strURL url地址
* @return url路徑
*/
public static String UrlPage(String strURL)
{
String strPage=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>0)
{
if(arrSplit.length>1)
{
if(arrSplit[0]!=null)
{
strPage=arrSplit[0];
}
}
}

return strPage;
}
/**
* 去掉url中的路徑，留下請求參數部分
* @param strURL url地址
* @return url請求參數部分
*/
private static String TruncateUrlPage(String strURL)
{
String strAllParam=null;
String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");
if(strURL.length()>1)
{
if(arrSplit.length>1)
{
if(arrSplit[1]!=null)
{
strAllParam=arrSplit[1];
}
}
}

return strAllParam;
}
/**
* 解析出url參數中的鍵值對
* 如 "index.jsp?Action=del&id=123"，解析出Action:del,id:123存入map中
* @param URL url地址
* @return url請求參數部分
*/
public static Map<String, String> URLRequest(String URL)
{
Map<String, String> mapRequest = new HashMap<String, String>();

String[] arrSplit=null;

String strUrlParam=TruncateUrlPage(URL);
if(strUrlParam==null)
{
return mapRequest;
}
//每個鍵值為一組
arrSplit=strUrlParam.split("[&]");
for(String strSplit:arrSplit)
{
String[] arrSplitEqual=null;
arrSplitEqual= strSplit.split("[=]");

//解析出鍵值
if(arrSplitEqual.length>1)
{
//正確解析
mapRequest.put(arrSplitEqual[0], arrSplitEqual[1]);

}
else
{
if(arrSplitEqual[0]!="")
{
//只有參數沒有值，不加入
mapRequest.put(arrSplitEqual[0], "");
}
}
}
return mapRequest;
}

}

public class TestCRequest {
/**用於測試CRequest類
* @param args
*/
public static void main(String[] args) {
// 請求url
String str = "index.jsp?Action=del&id=123&sort=";

//url頁面路徑
System.out.println(CRequest.UrlPage(str));

//url參數鍵值對
String strRequestKeyAndValues="";
Map<String, String> mapRequest = CRequest.URLRequest(str);

for(String strRequestKey: mapRequest.keySet()) {
String strRequestValue=mapRequest.get(strRequestKey);
strRequestKeyAndValues+="key:"+strRequestKey+",Value:"+strRequestValue+";";

}
System.out.println(strRequestKeyAndValues);

//獲取無效鍵時，輸出null
System.out.println(mapRequest.get("page"));
}
}

熱點內容

安卓手機mp3壓縮工具發布：2025-01-29 13:49:38 瀏覽：214

程序員和交易員發布：2025-01-29 13:49:36 瀏覽：422

怎麼變字體樣式app 發布：2025-01-29 13:43:11 瀏覽：173

名字叫湯什麼的視頻app 發布：2025-01-29 13:38:28 瀏覽：207

金屬加密鍵盤聯系電話發布：2025-01-29 13:37:34 瀏覽：335

自製解壓牛奶盒子教程發布：2025-01-29 13:22:38 瀏覽：64

編譯高手的圖片發布：2025-01-29 13:18:11 瀏覽：922

單片機數碼管顯示時分秒發布：2025-01-29 12:49:05 瀏覽：780

手指解壓最簡單的方法發布：2025-01-29 12:48:22 瀏覽：345

韓國郵箱伺服器地址發布：2025-01-29 12:45:55 瀏覽：967

android版本介紹發布：2025-01-29 12:44:23 瀏覽：410

pdf文件加密軟體發布：2025-01-29 12:44:22 瀏覽：410

長沙住房app怎麼看備案發布：2025-01-29 12:44:12 瀏覽：603

安裝加密軟體的電腦會被監控么發布：2025-01-29 12:43:28 瀏覽：221

java微博源碼發布：2025-01-29 12:41:29 瀏覽：569

堆排序簡單實現python 發布：2025-01-29 12:32:32 瀏覽：461

單片機引腳與鍵盤的關系發布：2025-01-29 12:32:01 瀏覽：132

壓縮火柴盒製作發布：2025-01-29 12:29:59 瀏覽：38

谷歌地圖android偏移發布：2025-01-29 12:22:28 瀏覽：214

bitlocker硬碟加密空間發布：2025-01-29 12:17:28 瀏覽：238

導航:首頁 > 編程語言 > java網頁解析

java網頁解析

與java網頁解析相關的資料