java開源網路爬蟲_java 網路爬蟲怎麼實現

❶ java開源web爬蟲哪個好用

Lucene+nutch+heritrix網上可以找得到源代碼，開源的搜索引擎，包含爬蟲、檢索等功能。

Heritrix是一個爬蟲框架，可加如入一些可互換的組件。它的執行是遞歸進行的，主要有以下幾步： 1。在預定的URI中選擇一個。 2。獲取URI 3。分析，歸檔結果 4。選擇已經發現的感興趣的URI。加入預定隊列。 5。標記已經處理過的URI 是IA的開放源代碼，可擴展的，基於整個Web的，歸檔網路爬蟲工程 Heritrix工程始於2003年初，IA的目的是開發一個特殊的爬蟲，對網上的資源進行歸檔，建立網路數字圖書館，在過去的6年裡，IA已經建立了400TB的數據。最新版本:heritrix-1.15.4 IA期望他們的crawler包含以下幾種：寬頻爬蟲：能夠以更高的帶寬去站點爬。主題爬蟲：集中於被選擇的問題。持續爬蟲：不僅僅爬更當前的網頁還負責爬日後更新的網頁。實驗爬蟲：對爬蟲技術進行實驗，以決定該爬什麼，以及對不同協議的爬蟲爬行結果進行分析的。 Heritrix的主頁是http://crawler.archive.org Heritrix是一個爬蟲框架，可加如入一些可互換的組件。它的執行是遞歸進行的，主要有以下幾步： 1。在預定的URI中選擇一個。 2。獲取URI 3。分析，歸檔結果 4。選擇已經發現的感興趣的URI。加入預定隊列。 5。標記已經處理過的URI
[編輯本段]部件
主要部件
Heritrix主要有三大部件：范圍部件，邊界部件，處理器鏈范圍部件：主要按照規則決定將哪個URI入隊。邊界部件：跟蹤哪個預定的URI將被收集，和已經被收集的URI，選擇下一個 URI，剔除已經處理過的URI。處理器鏈：包含若干處理器獲取URI，分析結果，將它們傳回給邊界部件
其餘部件
WEB管理控制台：大多數都是單機的WEB應用，內嵌JAVA HTTP 伺服器。操作者可以通過選擇Crawler命令來操作控制台。 Crawler命令處理部件：包含足夠的信息創建要爬的URI。 Servercache（處理器緩存）：存放伺服器的持久信息，能夠被爬行部件隨時查到，包括IP地址，歷史記錄，機器人策略。處理器鏈：預取鏈：主要是做一些准備工作，例如，對處理進行延遲和重新處理，否決隨後的操作。提取鏈：主要是獲得資源，進行DNS轉換，填寫請求和響應表單抽取鏈：當提取完成時，抽取感興趣的HTML，JavaScript，通常那裡有新的也適合的URI，此時URI僅僅被發現，不會被評估寫鏈：存儲爬行結果，返回內容和抽取特性，過濾完存儲。提交鏈：做最後的維護，例如，測試那些不在范圍內的，提交給邊界部件
[編輯本段]關鍵特性
Heritrix 1.0.0包含以下關鍵特性： 1.用單個爬蟲在多個獨立的站點一直不斷的進行遞歸的爬。 2。從一個提供的種子進行爬，收集站點內的精確URI，和精確主機。 3。主要是用廣度優先演算法進行處理。 4。主要部件都是高效的可擴展的 5。良好的配置，包括： a。可設置輸出日誌，歸檔文件和臨時文件的位置 b。可設置下載的最大位元組，最大數量的下載文檔，和最大的下載時間。 c。可設置工作線程數量。 d。可設置所利用的帶寬的上界。 e。可在設置之後一定時間重新選擇。 f。包含一些可設置的過濾機制，表達方式，URI路徑深度選擇等等。 Heritrix的局限： 1。單實例的爬蟲，之間不能進行合作。 2。在有限的機器資源的情況下，卻要復雜的操作。 3。只有官方支持，僅僅在Linux上進行了測試。 4。每個爬蟲是單獨進行工作的，沒有對更新進行修訂。 5。在硬體和系統失敗時，恢復能力很差。

❷ 如何使用Java語言實現一個網頁爬蟲

Java開源Web爬蟲

Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。

更多Heritrix信息

WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成：爬蟲工作平台和WebSPHINX類包。

更多WebSPHINX信息

WebLech

WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。

❸ 開源爬蟲框架各有什麼優缺點

首先爬蟲框架有三種

分布式爬蟲：Nutch
JAVA單機爬蟲：Crawler4j，WebMagic，WebCollector
非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

優點：

海量URL管理
網速快

缺點：

Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。
用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非。
Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲。
Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。
Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text)
用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。
Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

第二類:JAVA單機爬蟲

優點：

支持多線程。
支持代理。
能過濾重復URL的。
負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

先說python爬蟲，python可以用30行代碼，完成JAVA
50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。
使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。

缺點：

bug較多，不穩定。

❹ java 實現網路爬蟲用哪個爬蟲框架比較好

有些人問，開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：

上面說的爬蟲，基本可以分3類：

1.分布式爬蟲：Nutch

2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

爬蟲使用分布式，主要是解決兩個問題：

1)海量URL管理

2)網速

現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：

1)Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。

2)Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。

3)Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

5)很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。

6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase)，只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。

❺ java 網路爬蟲怎麼實現

以爬取豆瓣《紅海行動》的所有評論為例，目標是爬取所有評論以及發表評論的用戶名。

getHtml()類，首先是URL url1=new URL(url);模擬在網頁輸入網址，接著 URLConnection uc=url1.openConnection();模擬敲回車鍵打開該網址頁面，後面的看注釋應該能看懂了。bf.readLine()是依次每行讀取頁面的源碼，

/**
* 下載HTML頁面源碼
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//創建網路連接
URL url1=new URL(url);
//打開網路
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件輸入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率讀取
bf=new BufferedReader(isr);
//下載頁面源碼

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("網頁打開失敗，請重新輸入網址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("網頁打開失敗,請檢查網路。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()類，Document document=Jsoup.parse(html)，運用Jsoup.parse()解析網頁源碼，接著就是開始確定自己需要爬取的東西在網頁里的位置，這需要我們對html有點了解，能看、讀懂網頁標簽，可以看出當前頁面的所有評論都在id為"content"的大盒子里，每條評論都在class名為"main review-item"的小盒子里， for(Element el:elments)是指對象el在當前頁面循環去小盒子"main review-item"查找我們要爬取的東西，也就是用戶名和評論， String name=el.getElementsByClass("name").text()中的「name」可以在當前盒子里查找到用戶名，用.text()將它賦予給變數name，同理評論也是這樣抓取，如果不用將它存入磁碟，則可以後面那段文件操作刪除，只列印就行

導航:首頁 > 編程語言 > java開源網路爬蟲

java開源網路爬蟲

第一類:分布式爬蟲

優點：

缺點：

第二類:JAVA單機爬蟲

優點：

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

缺點：

與java開源網路爬蟲相關的資料