『壹』 java中有沒有第三方包有HttpWebRequest類的
Java開源Web爬蟲
Heritrix
Heritrix是一個開源,可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。
更多Heritrix信息
WebSPHINX
WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平台和WebSPHINX類包。
更多WebSPHINX信息
WebLech
WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。
更多WebLech信息
Arale
Arale主要為個人使用而設計,而沒有像其它爬蟲一樣是關注於頁面索引。Arale能夠下載整個web站點或來自web站點的某些資源。Arale還能夠把動態頁面映射成靜態頁面。
更多Arale信息
JSpider
JSpider:是一個完全可配置和定製的Web Spider引擎.你可以利用它來檢查網站的錯誤(內在的伺服器錯誤等),網站內外部鏈接檢查,分析網站的結構(可創建一個網站地圖),下載整個Web站點,你還可以寫一個JSpider插件來擴展你所需要的功能。
更多JSpider信息
spindle
spindle
是一個構建在Lucene工具包之上的Web索引/搜索工具.它包括一個用於創建索引的HTTP
spider和一個用於搜索這些索引的搜索類。spindle項目提供了一組JSP標簽庫使得那些基於JSP的站點不需要開發任何Java類就能夠增加搜
索功能。
更多spindle信息
Arachnid
Arachnid:
是一個基於Java的web
spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現Arachnid的子類就能夠開發一個簡單的Web
spiders並能夠在Web站上的每個頁面被解析之後增加幾行代碼調用。
Arachnid的下載包中包含兩個spider應用程序例子用於演示如何使用該框架。
更多Arachnid信息
LARM
LARM能夠為Jakarta Lucene搜索引擎框架的用戶提供一個純Java的搜索解決方案。它包含能夠為文件,資料庫表格建立索引的方法和為Web站點建索引的爬蟲。
更多LARM信息
JoBo
JoBo
是一個用於下載整個Web站點的簡單工具。它本質是一個Web
Spider。與其它下載工具相比較它的主要優勢是能夠自動填充form(如:自動登錄)和使用cookies來處理session。JoBo還有靈活的
下載規則(如:通過網頁的URL,大小,MIME類型等)來限制下載。
更多JoBo信息
snoics-reptile
snoics-
reptile是用純Java開發的,用來進行網站鏡像抓取的工具,可以使用配製文件中提供的URL入口,把這個網站所有的能用瀏覽器通過GET的方式獲
取到的資源全部抓取到本地,包括網頁和各種類型的文件,如:圖片、flash、mp3、zip、rar、exe等文件。可以將整個網站完整地下傳至硬碟
內,並能保持原有的網站結構精確不變。只需要把抓取下來的網站放到web伺服器(如:Apache)中,就可以實現完整的網站鏡像。
下載地址:
snoics-reptile2.0.part1.rar
snoics-reptile2.0.part2.rar
snoics-reptile2.0-doc.rar
更多snoics-reptile信息
Web-Harvest
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
更多Web-Harvest信息
ItSucks
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。
更多ItSucks信息
Smart and Simple Web Crawler
Smart
and Simple Web
Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置
過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和
RegularExpressionFilter,這三個過濾器可用AND、OR和NOT聯合。在解析過程或頁面載入前後都可以加監聽器。
更多Smart and Simple Web Crawler信息
Crawler4j
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單介面。可以利用它來構建一個多線程的Web爬蟲。
更多Crawler4j信息
Ex-Crawler
Ex-Crawler分成三部分(Crawler Daemon,Gui Client和Web搜索引擎),這三部分組合起來將成為一個靈活和強大的爬蟲和搜索引擎。其中Web搜索引擎部分採用PHP開發,並包含一個內容管理系統CMS用於維護搜索引擎。
更多Ex-Crawler信息
Crawler
Crawler是一個簡單的Web爬蟲。它讓你不用編寫枯燥,容易出錯的代碼,而只專注於所需要抓取網站的結構。此外它還非常易於使用。
CrawlerConfiguration cfg = new CrawlerConfiguration("http://www.open-open.com");
PageCrawler crawler = new PageCrawler(cfg);
crawler.crawl(new YourPageVisitor());
收錄時間:2011-03-05 09:41:09
更多Crawler信息
Encog
Encog是一個高級神經網路和機器人/爬蟲開發類庫。Encog提供的這兩種功能可以單獨分開使用來創建神經網路或HTTP機器人程序,同時Encog還支持將這兩種高級功能聯合起來使用。Encog支持創建前饋神經網路、Hopfield神經網路、自組織圖。
Encog提供高級HTTP機器人/爬蟲編程功能。支持將多線程爬蟲產生的內容存在內存或資料庫中。支持HTM解析和高級表單與Cookie處理。
收錄時間:2011-05-13 16:36:41
更多Encog信息
Crawljax
Crawljax是一個開源Java工具用於Ajax Web應用程序的自動化抓取和測試。Crawljax能夠抓取/爬行任何基於Ajax的Web應用程序通過觸發事件和在表單中填充數據。
收錄時間:2011-05-18 09:50:32
更多Crawljax信息