java微博爬蟲_java 網路爬蟲怎麼實現

『壹』 java相關，爬蟲問題，關於類似「動態」生成的東西怎麼爬下來謝謝！

據說javascript V8引擎可以實現類似的功能，不過具體怎麼樣也沒有試過，我只是給你一個參考。

『貳』用java語言編寫一個網路爬行器，獲取微博或者人人的數據實驗有人做過嗎

這些網站還有像淘寶這樣的網站都是反爬的
你搞人人和微博的數據只能用他們提供的api，具體的用戶數據還得通過oauth 所以我想是不可能的
不要追問我具體我也沒做過爬蟲器

『叄』用java爬蟲登陸新浪微博，求代碼，不要給連接，我都試過了，都沒成功。

用java的話，用apache的httpcomponents吧。。先用firefox或者chrome研究微博的登錄方式，然後模擬提交，登錄後把登錄信息放到cookie里，接著你想幹啥就幹啥了。

『肆』初學者學習JAVA網路爬蟲

不知道怎麼去教你，只能說說我自己的學習經歷。初學Java，包括學習一兩年的，很難精通Java。特別是對於在校的學生，學生只是帶著學習Java這種情況，對於多態、重載、介面的運用等等的理解並不夠。說理論太難說，你現在的情況就直接上手項目，自己做東西。1、先跟著做一個整體的項目，比如坦克大戰之類的，這樣能帶著你整體理解Java，藉此自己反思Java基礎哪裡學的不好，補。2、然後做JavaWeb項目，理解框架、一些簡單的設計模式，嘗試做一個微博的項目（不好意思，我當年做的第一個web項目就是微博系統，嘿嘿）或者其他的。我自己覺得做web項目最好，很多Java只是都能在項目中加深理解。其實想說的就是，java入門不難，但是想精通很難。學習.....反思....項目......學習.....反思.... 我就簡單說這么一點點。有什麼你跟我私聊。只要堅持下來，相信你會成功。

『伍』 java相關。爬蟲問題，關於新浪微博。謝謝！

開門見山，說兩個工具可以實現你的要求，分筆試selenium和htmlunit。當然還有其他工具，就不一一列舉了。
首先你用jsoup或者apache的httpclient爬到你能夠爬到的那一層，即可以通過response傳回的html靜態頁面可以知道下一步爬哪個連接的那一層。
然後到爬不動的那一層，比如你說圖片動態載入，抓回的html上找不到圖片的鏈接了，那麼你在使用上述兩個工具其中一個。
大致思路我絮叨的如上。然後說一下二者的異同。
————————————————————————————————
這兩個你選用一個就好，不過爬蟲用htmlunit就可以了。這倆都是做頁面測試方面很好用的工具，不同於其它的工具是他們可以模擬一個瀏覽器引擎，通過這句話我想你就應該知道你給他一個地址他就可以像瀏覽器那樣解析，既然如此瀏覽器本身應該知道解析後的html啊，所以就可以拿到了。不同點是selenuim會彈出一個框，後者後台靜默的為你奉獻。當然，出發點不同，前者更善於肉眼可見的模擬，都很好用，簡單爬蟲推薦用後者。又絮叨了一堆，好了，你對這兩個工具有個了解了。下面附上一個htmlunit的demo，你就可以用了。
————————————————————————————————
新浪微博需要登錄，所以你需要模擬登錄過程，並保持一個登錄後的WebClient對象，然後用它來訪問那些動態生成的網頁。
WebClient webClient = new WebClient();
HtmlPage page1 = webClient.getPage(登錄的url);
HtmlForm form = page1.getFormByName("myform");
HtmlSubmitInput button = form.getInputByName("submitbutton");
HtmlTextInput textField = form.getInputByName("userid");
textField.setValueAttribute("root");
HtmlPage page2 = button.click();
好了，你已經可以做了。這個工具一定可以幫你完成你的功能需求。htmlunit的例子也很多，網路一下試試。

『陸』 java 網路爬蟲怎麼實現

以爬取豆瓣《紅海行動》的所有評論為例，目標是爬取所有評論以及發表評論的用戶名。

getHtml()類，首先是URL url1=new URL(url);模擬在網頁輸入網址，接著 URLConnection uc=url1.openConnection();模擬敲回車鍵打開該網址頁面，後面的看注釋應該能看懂了。bf.readLine()是依次每行讀取頁面的源碼，

/**
* 下載HTML頁面源碼
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//創建網路連接
URL url1=new URL(url);
//打開網路
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件輸入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率讀取
bf=new BufferedReader(isr);
//下載頁面源碼

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("網頁打開失敗，請重新輸入網址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("網頁打開失敗,請檢查網路。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()類，Document document=Jsoup.parse(html)，運用Jsoup.parse()解析網頁源碼，接著就是開始確定自己需要爬取的東西在網頁里的位置，這需要我們對html有點了解，能看、讀懂網頁標簽，可以看出當前頁面的所有評論都在id為"content"的大盒子里，每條評論都在class名為"main review-item"的小盒子里， for(Element el:elments)是指對象el在當前頁面循環去小盒子"main review-item"查找我們要爬取的東西，也就是用戶名和評論， String name=el.getElementsByClass("name").text()中的「name」可以在當前盒子里查找到用戶名，用.text()將它賦予給變數name，同理評論也是這樣抓取，如果不用將它存入磁碟，則可以後面那段文件操作刪除，只列印就行

『柒』那個java爬蟲登陸sina微博可以發我一份嗎

我也想要一個看看，謝謝
[email protected]發給我謝謝！

『捌』 java相關/爬蟲/nutch。需求是使用爬蟲去爬去新浪微博。謝謝！

新浪微博比如有一個用戶，把這個用戶的目錄給爬蟲程序入口，指定好深度，開始爬，然後依次爬行這個人的好友

導航:首頁 > 編程語言 > java微博爬蟲

java微博爬蟲

與java微博爬蟲相關的資料