1. java http 客戶端有哪些
1、Apache httpcomponents-client
2、Apache commons-httpclient
3、Apache HttpAsyncClient
2. JAVA的HttpResponse怎麼實例化,org.apache.http.HttpResponse;
這里的 HttpResponse 是一個介面,是抽象的,不能這樣實例化。你如果要發送http請求,把這句刪了不影響,可以如下所用
HttpResponse httpResponse = httpClient.execute(httpPost);
3. java中有沒有第三方包有HttpWebRequest類的
Java開源Web爬蟲
Heritrix
Heritrix是一個開源,可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。
更多Heritrix信息
WebSPHINX
WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平台和WebSPHINX類包。
更多WebSPHINX信息
WebLech
WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。
更多WebLech信息
Arale
Arale主要為個人使用而設計,而沒有像其它爬蟲一樣是關注於頁面索引。Arale能夠下載整個web站點或來自web站點的某些資源。Arale還能夠把動態頁面映射成靜態頁面。
更多Arale信息
JSpider
JSpider:是一個完全可配置和定製的Web Spider引擎.你可以利用它來檢查網站的錯誤(內在的伺服器錯誤等),網站內外部鏈接檢查,分析網站的結構(可創建一個網站地圖),下載整個Web站點,你還可以寫一個JSpider插件來擴展你所需要的功能。
更多JSpider信息
spindle
spindle
是一個構建在Lucene工具包之上的Web索引/搜索工具.它包括一個用於創建索引的HTTP
spider和一個用於搜索這些索引的搜索類。spindle項目提供了一組JSP標簽庫使得那些基於JSP的站點不需要開發任何Java類就能夠增加搜
索功能。
更多spindle信息
Arachnid
Arachnid:
是一個基於Java的web
spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現Arachnid的子類就能夠開發一個簡單的Web
spiders並能夠在Web站上的每個頁面被解析之後增加幾行代碼調用。
Arachnid的下載包中包含兩個spider應用程序例子用於演示如何使用該框架。
更多Arachnid信息
LARM
LARM能夠為Jakarta Lucene搜索引擎框架的用戶提供一個純Java的搜索解決方案。它包含能夠為文件,資料庫表格建立索引的方法和為Web站點建索引的爬蟲。
更多LARM信息
JoBo
JoBo
是一個用於下載整個Web站點的簡單工具。它本質是一個Web
Spider。與其它下載工具相比較它的主要優勢是能夠自動填充form(如:自動登錄)和使用cookies來處理session。JoBo還有靈活的
下載規則(如:通過網頁的URL,大小,MIME類型等)來限制下載。
更多JoBo信息
snoics-reptile
snoics-
reptile是用純Java開發的,用來進行網站鏡像抓取的工具,可以使用配製文件中提供的URL入口,把這個網站所有的能用瀏覽器通過GET的方式獲
取到的資源全部抓取到本地,包括網頁和各種類型的文件,如:圖片、flash、mp3、zip、rar、exe等文件。可以將整個網站完整地下傳至硬碟
內,並能保持原有的網站結構精確不變。只需要把抓取下來的網站放到web伺服器(如:Apache)中,就可以實現完整的網站鏡像。
下載地址:
snoics-reptile2.0.part1.rar
snoics-reptile2.0.part2.rar
snoics-reptile2.0-doc.rar
更多snoics-reptile信息
Web-Harvest
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
更多Web-Harvest信息
ItSucks
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。
更多ItSucks信息
Smart and Simple Web Crawler
Smart
and Simple Web
Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置
過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和
RegularExpressionFilter,這三個過濾器可用AND、OR和NOT聯合。在解析過程或頁面載入前後都可以加監聽器。
更多Smart and Simple Web Crawler信息
Crawler4j
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單介面。可以利用它來構建一個多線程的Web爬蟲。
更多Crawler4j信息
Ex-Crawler
Ex-Crawler分成三部分(Crawler Daemon,Gui Client和Web搜索引擎),這三部分組合起來將成為一個靈活和強大的爬蟲和搜索引擎。其中Web搜索引擎部分採用PHP開發,並包含一個內容管理系統CMS用於維護搜索引擎。
更多Ex-Crawler信息
Crawler
Crawler是一個簡單的Web爬蟲。它讓你不用編寫枯燥,容易出錯的代碼,而只專注於所需要抓取網站的結構。此外它還非常易於使用。
CrawlerConfiguration cfg = new CrawlerConfiguration("http://www.open-open.com");
PageCrawler crawler = new PageCrawler(cfg);
crawler.crawl(new YourPageVisitor());
收錄時間:2011-03-05 09:41:09
更多Crawler信息
Encog
Encog是一個高級神經網路和機器人/爬蟲開發類庫。Encog提供的這兩種功能可以單獨分開使用來創建神經網路或HTTP機器人程序,同時Encog還支持將這兩種高級功能聯合起來使用。Encog支持創建前饋神經網路、Hopfield神經網路、自組織圖。
Encog提供高級HTTP機器人/爬蟲編程功能。支持將多線程爬蟲產生的內容存在內存或資料庫中。支持HTM解析和高級表單與Cookie處理。
收錄時間:2011-05-13 16:36:41
更多Encog信息
Crawljax
Crawljax是一個開源Java工具用於Ajax Web應用程序的自動化抓取和測試。Crawljax能夠抓取/爬行任何基於Ajax的Web應用程序通過觸發事件和在表單中填充數據。
收錄時間:2011-05-18 09:50:32
更多Crawljax信息
4. Java web運行時 http500
你這個問題太簡略,我只能羅列一下排查500錯誤的方式,也算是給個思路吧:
1、資料庫異常:
1)檢查資料庫伺服器,是否能夠正常連得上,資料庫機器是否掛了;
2)檢查服務上的資料庫相關的配置,是否正確;
3)檢查swagger,看swagger頁面是否能夠正常訪問,swagger裡面的後台介面能否正常獲取到資料庫裡面的數據;
4)如果資料庫正常、配置正常,swagger也能獲取到數據,而且查看日誌的時候,發現日誌報某些表不存在,但是登上某一台資料庫,發現表是完整的。那麼就需要檢查一下所有的資料庫機器裡面的數據了。看看主從資料庫裡面的數據是否一致。如果數據不一致,且同步數據有問題,而服務正好連上問題資料庫,那麼就會出現頁面上有些數據顯示不出來,服務報500的情況;
5)如果是新搭建的環境,那就需要看看是否資料庫沒有進行數據的初始化了;
6)資料庫的磁碟空間滿了,這時候服務不一定會報500,但是頁面上數據會載入不出來;
7)還遇到一種資料庫異常就是,有一個鑒權的服務升級完了之後,發現所有的成員操作報沒許可權,但是服務是OK的。查看服務日誌,日誌報該服務配置的資料庫用戶沒許可權連接資料庫。查看這個資料庫的用戶,發現這個庫的用戶和密碼被誰刪掉了(另一次是用戶沒有刪,突然就沒許可權了),然後重新創建這個用戶,重新授權,就OK了
2、域名異常
如果前台調該服務是通過域名調用的,需要考慮這個情況。
3、/etc/hosts沒有配置解析
有一次發現A服務的頁面上創先了B服務報500,A服務是通過域名調用的B服務後台服務。經過核對排查,發現因為兩台機器的大小網、網路等原因,需要在A服務的/etc/hosts裡面單獨配置B服務的解析,加上IP和域名(如:10.0.0.0 www..com)才能正確解析到。於是加上解析之後,服務就不再報500了。
4、logout的 URL配置問題,網站的退出登錄時,頁面直接500
在首頁退出登錄,本來應該是界面回到最初的登錄界面,但是退出登錄之後,界面直接就是一串500的報錯。於是查看tomcat下應用裡面的inputs參數,檢查log out這里對應的URL鏈接地址。換成正確的地址之後,500錯誤解決
5、memcached異常,頁面登錄,報500
在前端是加了memcached的,在登錄頁面輸入用戶名和密碼登錄,進去之後發現不是網站的首頁,而是頁面直接就是500的報錯信息,報錯信息還寫了time out等等,其中注意到報錯裡面有兩個IP地址,經核實,正是memcached的IP地址,於是查看memcached服務,確認是memcached服務異常引起的。