新浪爬蟲java_java 網路爬蟲怎麼實現

❶ java爬蟲怎麼用啊

把String url="http://www..com",換成String url="http://www.sina.com"就是改成新浪網的域名了，說白了就是改個網址就行，其他的看不懂沒關系，不用改直接systemout 輸出看結果就行了

❷ java爬蟲一段話里的部分字元亂碼解決

1. 網路爬蟲亂碼的原因。
源網頁的編碼與抓取後的編碼轉換不一致。如果源網頁是gbk編碼的位元組流，程序在我們抓取後直接用utf-8編碼輸出到存儲文件，這必然會造成亂碼，即當源網頁編碼與程序抓取後直接處理編碼一致時，就不會出現亂碼，然後統一字元編碼後也就不會出現亂碼。注意區分源網路代碼A，程序B直接使用的代碼，統一轉換字元的代碼C。
2. 是網頁的伺服器端代碼。
B.捕獲的數據原本是位元組數組，由A編碼，只有B=A才能保證不會出現亂碼；否則，當字元集不兼容時，就會出現亂碼字元。這一步常用於測試。
c、統一轉碼是指在獲得網頁的原始編碼A後進行統一編碼，主要是將每個網頁的數據統一成一種編碼，往往首選字元集較大的utf-8。
每個網頁都有自己的代碼，比如gbk，utf-8，iso8859-1，日本jp系統代碼，西歐，俄語等等。爬行時，所有類型的代碼都將被擴展。有的爬蟲只是簡單的識別網頁，然後統一編碼，有的則直接按照utf-8統一處理，不需要判斷源網頁，顯然會造成亂碼。
3. 亂碼的解決方案。
根據原因找到解決辦法很簡單。
1) 確定源網頁的代碼a。
代碼a通常位於網頁的三個位置，即httpheader的內容、網頁的元字元集和網頁標題中的文檔定義。獲取源網頁代碼時，依次判斷這三部分數據，從頭到尾優先順序相同。
理論上這是對的，但是國內有些網站不符合標准。比如寫出來的gbk其實是utf-8，有的寫出來是utf-8，其實是gbk。當然這是幾個網站，但是確實存在。因此，在確定網頁編碼時，應該對這種特殊情況給予特殊處理，如中文檢查、默認編碼等策略。
在另一種情況下，如果以上三種都沒有編碼信息，一般使用第三方的網頁編碼智能識別工具，如cpdetector。原理是通過統計位元組數組的特性來計算實際編碼，有一定的准確率，但是我發現在實踐中准確率還是很有限的。
但是綜合以上三種編碼確認方法後，中文亂碼的問題幾乎可以完全解決。在我的基於nutch1.6的網路爬蟲系統中，經過統計，編碼准確率可以達到99.99%，這也證明了上述方法和策略的可行性。
2) 程序通過代碼b還原源網頁數據。
顯然，這里的B應該等於a，在java中，如果源網頁的位元組數組是source_byte_array，就會轉換成stringstr=newstring(source_byte_array，B)。即這些位元組數組對應的字元被正確編碼顯示在內存中，此時列印結果正常。此步驟通常用於調試或控制台輸出測試。
3) 統一轉碼。
網路爬蟲系統中有很多數據源。如果無法使用數據，它將被轉換為其原始數據，如果這樣做是浪費的。所以一般爬蟲系統要對抓取的結果進行統一編碼，做到一致，使用方便。此時，在(2)的基礎上，可以進行統一的編碼轉換，在java中的實現如下。
源網頁的位元組數組是source_byte_array。
轉換為普通字元串:stringnormal_source_str=newstring(source_byte_array，c)。這時候可以直接用javaapi存儲，但是字元串往往不直接寫。因為一般爬蟲存儲是將多個源網頁存儲在一個文件中，所以要記錄位元組偏移量，所以下一步。再將得到的str轉換為統一的編碼C格式的位元組數組,則byte[] new_byte_array=normal_source_str.getBytes(C)即可，此時即可用java io api將數組寫入文件，並記錄相應的位元組數組偏移量等，待真正使用時，直接io讀取即可。
爬蟲過程不僅會存在亂碼問題，還會存在網站爬取涉及法律、IP受限，爬取行為受限等等問題，這個時候就需要不斷去解決這些問題。

❸ java 網路爬蟲怎麼實現

以爬取豆瓣《紅海行動》的所有評論為例，目標是爬取所有評論以及發表評論的用戶名。

getHtml()類，首先是URL url1=new URL(url);模擬在網頁輸入網址，接著 URLConnection uc=url1.openConnection();模擬敲回車鍵打開該網址頁面，後面的看注釋應該能看懂了。bf.readLine()是依次每行讀取頁面的源碼，

/**
* 下載HTML頁面源碼
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//創建網路連接
URL url1=new URL(url);
//打開網路
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件輸入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率讀取
bf=new BufferedReader(isr);
//下載頁面源碼

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("網頁打開失敗，請重新輸入網址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("網頁打開失敗,請檢查網路。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()類，Document document=Jsoup.parse(html)，運用Jsoup.parse()解析網頁源碼，接著就是開始確定自己需要爬取的東西在網頁里的位置，這需要我們對html有點了解，能看、讀懂網頁標簽，可以看出當前頁面的所有評論都在id為"content"的大盒子里，每條評論都在class名為"main review-item"的小盒子里， for(Element el:elments)是指對象el在當前頁面循環去小盒子"main review-item"查找我們要爬取的東西，也就是用戶名和評論， String name=el.getElementsByClass("name").text()中的「name」可以在當前盒子里查找到用戶名，用.text()將它賦予給變數name，同理評論也是這樣抓取，如果不用將它存入磁碟，則可以後面那段文件操作刪除，只列印就行

❹ 鎴戠幇鍦ㄦ兂閫氳繃java緙栧啓鐨勭綉緇滅埇鉶鎶撳彇錛屾柊嫻鏂伴椈緗戦〉涓婄殑璇勮璇烽棶鎮ㄧ幇鍦ㄨВ鍐充簡鍚

瀵逛竴縐嶆寚瀹氱殑欏甸潰錛岃繕涓嶇畻澶闅劇殑銆 HttpURLConnection 鍩烘湰鍙浠ャ

導航:首頁 > 編程語言 > 新浪爬蟲java

新浪爬蟲java

與新浪爬蟲java相關的資料