㈠ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
HttpEntity entity = redirectResponse.getEntity();
InputStream content = entity.getContent();
HtmlCleaner cleaner = new HtmlCleaner();
TagNode tagNode = cleaner.clean(content, "utf-8");
Object[] clickHrefs = tagNode.evaluateXPath("//div/a/@href");
if (clickHrefs != null) {
clickHref = clickHrefs[0].toString();
System.out.println("獲取到跳轉鏈接地址:" + clickHref);
}
㈡ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
使用jsoup可以做到,親測可用。不僅可獲得節點的xpath,還能獲得該元素在css中的路徑。
㈢ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
//htmlDcoument對象用來訪問Html文檔s
HtmlAgilityPack.HtmlDocument hd = new HtmlAgilityPack.HtmlDocument();
//載入Html文檔
hd.LoadHtml(strhtml);
string str = hd.DocumentNode.SelectSingleNode("//*[@id='e_font']").OuterHtml;
這樣就可以得到一個標簽的HTml代碼了
㈣ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
java中有解析html文檔的庫,直接網路或者google關鍵字:java html parser即可
不知道這些庫是否能夠獲取頁面元素對應的xpath值,這些庫,僅供參考。但我想,這些庫既然能夠解析html文檔,那麼他們就一定會用到xpath,如果他們將xpath相關api暴漏出來的話,就能夠實現你的功能啦。</ol>
㈤ java解析xml有幾種方法
DOM(Document Object Model)解析
優點
允許應用程序對數據和結構做出更改
訪問是雙向的,可以在任何時候在樹中上、下導航獲取、操作任意部分的數據
缺點
解析XML文檔的需要載入整個文檔來構造層次結構,消耗內存資源大。
應用范圍
遍歷能力強,常應用於XML文檔需要頻繁改變的服務中。
解析步驟
創建一個 DocumentBuilderFactory 對象
創建一個 DocumentBuilder 對象
通過 DocumentBuilder 的 parse() 方法載入 XML 到當前工程目錄下
通過 getElementsByTagName() 方法獲取所有 XML 所有節點的集合
遍歷所有節點
通過 item() 方法獲取某個節點的屬性
通過 getNodeName() 和 getNodeValue() 方法獲取屬性名和屬性值
通過 getChildNodes() 方法獲取子節點,並遍歷所有子節點
通過 getNodeName() 和 getTextContent() 方法獲取子節點名稱和子節點值
package Paint;
import java.io.IOException;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
public class DOMTest {
public static void main(String[] args) {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
try {
DocumentBuilder db = dbf.newDocumentBuilder();
Document document = db.parse("./src/Paint/hello.xml");
NodeList bookList = document.getElementsByTagName("book"); //節點集
int bookCnt = bookList.getLength();
System.err.println("一共獲取到" + bookCnt +"本書");
for(int i=0; i Node book = bookList.item(i);
NamedNodeMap attrs = book.getAttributes();
for(int j=0; j Node attr = attrs.item(j);
System.err.println(attr.getNodeName()+"---"+attr.getNodeValue());//id
}
NodeList childNodes = book.getChildNodes();
for(int k=0; k if(childNodes.item(k).getNodeType() == Node.ELEMENT_NODE){
System.out.println(childNodes.item(k).getNodeName()+"---" + childNodes.item(k).getTextContent());
}
}
}
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
SAX(Simple API for XML)解析
優點
不需要等待所有的數據被處理,解析就可以開始
只在讀取數據時檢查數據,不需要保存在內存中
可以在某一個條件滿足時停止解析,不必要解析整個文檔
效率和性能較高,能解析大於系統內存的文檔
缺點
解析邏輯復雜,需要應用層自己負責邏輯處理,文檔越復雜程序越復雜
單向導航,無法定位文檔層次,很難同時同時訪問同一文檔的不同部分數據,不支持 XPath
解析步驟
獲取一個 SAXParserFactory 的實例
通過 factory() 獲取 SAXParser 實例
創建一個 handler() 對象
通過 parser 的 parse() 方法來解析 XML
SAXTest.java
package Paint;
import java.io.IOException;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.SAXException;
public class SAXTest {
public static void main(String[] args) {
// 獲取實例
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
SAXParser parser = factory.newSAXParser();
SAXParserHandler handler = new SAXParserHandler();
parser.parse("./src/Paint/hello.xml", handler);
System.err.println("共有"+ handler.getBookList().size()+ "本書");
for(Book book : handler.getBookList()){
System.out.println(book.getName());
System.out.println("id=" + book.getId());
System.out.println(book.getAuthor());
System.out.println(book.getYear());
System.out.println(book.getPrice());
System.out.println(book.getLanguage());
}
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
SAXParserHandler.java
package Paint;
import java.util.ArrayList;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class SAXParserHandler extends DefaultHandler {
String value = null;
Book book = null;
private ArrayList bookList = new ArrayList();
public ArrayList getBookList() {
return bookList;
}
/*
* XML 解析開始
*/
public void startDocument() throws SAXException {
super.startDocument();
System.out.println("xml 解析開始");
}
/*
* XML 解析結束
*/
public void endDocument() throws SAXException {
super.endDocument();
System.out.println("xml 解析結束");
}
/*
* 解析 XML 元素開始
*/
public void startElement(String uri, String localName, String qName,
Attributes attributes) throws SAXException {
super.startElement(uri, localName, qName, attributes);
if(qName.equals("book")){
book = new Book();
for(int i=0; i System.out.println(attributes.getQName(i)+"---"+attributes.getValue(i));
if(attributes.getQName(i).equals("id")){
book.setId(attributes.getValue(i));
}
}
}else if(!qName.equals("bookstore")){
System.out.print("節點名:"+ qName + "---");
}
}
/*
*解析 XML 元素結束
*/
public void endElement(String uri, String localName, String qName)
throws SAXException {
super.endElement(uri, localName, qName);
if(qName.equals("book")){
bookList.add(book);
book = null;
}
else if(qName.equals("name")){
book.setName(value);
}else if(qName.equals("year")){
book.setYear(value);
}else if(qName.equals("author")){
book.setAuthor(value);
}else if(qName.equals("price")){
book.setPrice(value);
}else if(qName.equals("language")){
book.setLanguage(value);
}
}
public void characters(char[] ch, int start, int length)
throws SAXException {
super.characters(ch, start, length);
// 獲取節點值數組
value = new String(ch, start, length);
if(!value.trim().equals("")){
System.out.println("節點值:"+value);
}
}
}
㈥ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
不能。可以用servlet調用JSP頁面來獲取頁面的數據。request.getAttrubite();用這點兒知識就可以了。
㈦ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
java中有解析html文檔的庫,直接網路或者google關鍵字:java html parser即可
不知道這些庫是否能夠獲取頁面元素對應的xpath值,這些庫,僅供參考。但我想,這些庫既然能夠解析html文檔,那麼他們就一定會用到xpath,如果他們將xpath相關api暴漏出來的話,就能夠實現你的功能啦。
㈧ 能用java相關技術解析Html頁面,批量獲取頁面內容對應的xpath嗎
java有解析xml文件的第三方包,關於html還真不知道。
當然,不是說這個問題不可解,解決的方法是使用Java的正則表達式匹配對應的xpath即可,可以查看Java編程思想,查看對應的章節即可。
㈨ java xpath怎麼解析string
假設要解析的字元串是 str:
InputStream iStream = new ByteArrayInputStream(str.getBytes());
Document dm = db.parse(iStream);
㈩ java解析xpath用什麼好
用jdk自帶的就行
Java 5 推出了 javax.xml.xpath 包,提供一個引擎和對象模型獨立的 XPath 庫。這個包也可用於 Java 1.3 及以後的版本,但需要單獨安裝 Java API for XML Processing (JAXP) 1.3。Xalan 2.7 和 Saxon 8 以及其他產品包含了這個庫的實現。