導航:首頁 > 編程語言 > java微博爬蟲

java微博爬蟲

發布時間:2022-07-27 14:08:28

『壹』 java相關,爬蟲問題,關於類似「動態」生成的東西怎麼爬下來謝謝!

據說javascript V8引擎可以實現類似的功能,不過具體怎麼樣也沒有試過,我只是給你一個參考。

『貳』 用java語言編寫一個網路爬行器,獲取微博或者人人的數據實驗有人做過嗎

這些網站 還有像淘寶 這樣的網站 都是反爬的
你搞人人和微博的數據 只能用他們提供的api,具體的用戶數據還得通過oauth 所以 我想是不可能的
不要追問我 具體我也沒做過爬蟲器

『叄』 用java爬蟲登陸新浪微博,求代碼 ,不要給連接,我都試過了,都沒成功。

用java的話,用apache的httpcomponents吧。。先用firefox或者chrome研究微博的登錄方式,然後模擬提交,登錄後把登錄信息放到cookie里,接著你想幹啥就幹啥了。

『肆』 初學者學習JAVA網路爬蟲

不知道怎麼去教你,只能說說我自己的學習經歷。初學Java,包括學習一兩年的,很難精通Java。特別是對於在校的學生,學生只是帶著學習Java這種情況,對於多態、重載、介面的運用等等的理解並不夠。說理論太難說,你現在的情況就直接上手項目,自己做東西。1、先跟著做一個整體的項目,比如坦克大戰之類的,這樣能帶著你整體理解Java,藉此自己反思Java基礎哪裡學的不好,補。2、然後做JavaWeb項目,理解框架、一些簡單的設計模式,嘗試做一個微博的項目(不好意思,我當年做的第一個web項目就是微博系統,嘿嘿)或者其他的。我自己覺得做web項目最好,很多Java只是都能在項目中加深理解。其實想說的就是,java入門不難,但是想精通很難。學習.....反思....項目......學習.....反思.... 我就簡單說這么一點點。有什麼你跟我私聊。只要堅持下來,相信你會成功。

『伍』 java相關。爬蟲問題,關於新浪微博。謝謝!

開門見山,說兩個工具可以實現你的要求,分筆試selenium和htmlunit。當然還有其他工具,就不一一列舉了。
首先你用jsoup或者apache的httpclient爬到你能夠爬到的那一層,即可以通過response傳回的html靜態頁面可以知道下一步爬哪個連接的那一層。
然後到爬不動的那一層,比如你說圖片動態載入,抓回的html上找不到圖片的鏈接了,那麼你在使用上述兩個工具其中一個。
大致思路我絮叨的如上。然後說一下二者的異同。
————————————————————————————————
這兩個你選用一個就好,不過爬蟲用htmlunit就可以了。這倆都是做頁面測試方面很好用的工具,不同於其它的工具是他們可以模擬一個瀏覽器引擎,通過這句話我想你就應該知道你給他一個地址他就可以像瀏覽器那樣解析,既然如此瀏覽器本身應該知道解析後的html啊,所以就可以拿到了。不同點是selenuim會彈出一個框,後者後台靜默的為你奉獻。當然,出發點不同,前者更善於肉眼可見的模擬,都很好用,簡單爬蟲推薦用後者。又絮叨了一堆,好了,你對這兩個工具有個了解了。下面附上一個htmlunit的demo,你就可以用了。
————————————————————————————————
新浪微博需要登錄,所以你需要模擬登錄過程,並保持一個登錄後的WebClient對象,然後用它來訪問那些動態生成的網頁。
WebClient webClient = new WebClient();
HtmlPage page1 = webClient.getPage(登錄的url);
HtmlForm form = page1.getFormByName("myform");
HtmlSubmitInput button = form.getInputByName("submitbutton");
HtmlTextInput textField = form.getInputByName("userid");
textField.setValueAttribute("root");
HtmlPage page2 = button.click();
好了,你已經可以做了。這個工具一定可以幫你完成你的功能需求。htmlunit的例子也很多,網路一下試試。

『陸』 java 網路爬蟲怎麼實現

以爬取豆瓣《紅海行動》的所有評論為例,目標是爬取所有評論以及發表評論的用戶名。

getHtml()類,首先是URL url1=new URL(url);模擬在網頁輸入網址,接著 URLConnection uc=url1.openConnection();模擬敲回車鍵打開該網址頁面,後面的看注釋應該能看懂了。bf.readLine()是依次每行讀取頁面的源碼

/**
* 下載HTML頁面源碼
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//創建網路連接
URL url1=new URL(url);
//打開網路
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件輸入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率讀取
bf=new BufferedReader(isr);
//下載頁面源碼

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("網頁打開失敗,請重新輸入網址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("網頁打開失敗,請檢查網路。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()類,Document document=Jsoup.parse(html),運用Jsoup.parse()解析網頁源碼,接著就是開始確定自己需要爬取的東西在網頁里的位置,這需要我們對html有點了解,能看、讀懂網頁標簽,可以看出當前頁面的所有評論都在id為"content"的大盒子里,每條評論都在class名為"main review-item"的小盒子里, for(Element el:elments)是指對象el在當前頁面循環去小盒子"main review-item"查找我們要爬取的東西,也就是用戶名和評論, String name=el.getElementsByClass("name").text()中的「name」可以在當前盒子里查找到用戶名,用.text()將它賦予給變數name,同理評論也是這樣抓取,如果不用將它存入磁碟,則可以後面那段文件操作刪除,只列印就行

『柒』 那個java爬蟲登陸sina微博可以發我一份嗎

我也想要一個看看 ,謝謝
[email protected]發給我謝謝!

『捌』 java相關/爬蟲/nutch。需求是使用爬蟲去爬去新浪微博。謝謝!

新浪微博比如有一個用戶,把這個用戶的目錄給爬蟲程序入口,指定好深度,開始爬,然後依次爬行這個人的好友

閱讀全文

與java微博爬蟲相關的資料

熱點內容
正宗溯源碼大燕條一克一般多少錢 瀏覽:917
電腦感染exe文件夾 瀏覽:916
wpsppt怎麼轉pdf格式 瀏覽:88
騰訊文檔在線編輯怎麼添加密碼 瀏覽:880
本地不能訪問伺服器地址 瀏覽:865
訪問伺服器命令 瀏覽:835
華為雲伺服器分銷商 瀏覽:954
Linux定位內存泄露 瀏覽:198
工程加密狗視頻 瀏覽:720
不在內網怎麼連接伺服器 瀏覽:664
雲伺服器app安卓下載 瀏覽:966
如何查看linux伺服器的核心數 瀏覽:137
交易平台小程序源碼下載 瀏覽:148
程序員記筆記用什麼app免費的 瀏覽:646
java與單片機 瀏覽:897
伺服器內網如何通過公網映射 瀏覽:478
程序員穿越到宋代 瀏覽:624
怎麼使用雲伺服器掛游戲 瀏覽:620
真實的幸福pdf 瀏覽:345
d盤php調用c盤的mysql 瀏覽:267