導航:首頁 > 文檔加密 > http協議pdf

http協議pdf

發布時間:2024-01-27 02:48:26

㈠ R爬蟲必備基礎—HTTP協議

HTTP協議是Hyper Text Transfer Protocol(超文本傳輸協議)的縮寫,是用於從萬維網(WWW:World Wide Web )伺服器傳輸超文本到本地瀏覽器的傳送協議。HTTP是一個基於TCP/IP通信協議來傳遞數據(HTML 文件, 圖片文件, 查詢結果等)。

HTTP協議工作於客戶端-服務端架構上。瀏覽器作為HTTP客戶端通過URL向HTTP服務端即WEB伺服器發送所有請求。Web伺服器有:Apache伺服器,IIS伺服器(Internet Information Services)等。Web伺服器根據接收到的請求後,向客戶端發送響應信息。HTTP默認埠號為80,但是你也可以改為8080或者其他埠。

通信流程說明:

①用戶首先通過滑鼠/鍵盤點擊或手動輸入目標鏈接(即URL(Uniform Resource Locators),中文名稱:統一資源定位符),向HTTP客戶端(如常見的瀏覽器)傳達數據查詢需求。
②HTTP客戶端收到需求後,將收到的URL信息向DNS伺服器(域名系統)詢問鏈接對應的具體IP地址,DNS伺服器返回URL對應的IP地址。
③HTTP客戶端再拿著IP地址通過TCP協議(傳輸控制協議,Transmission Control Protocol)和IP協議(Internet Protocol)向HTTP伺服器發出數據請求,等待伺服器響應。
④HTTP伺服器將請求的相關信息返回給HTTP客戶端,由客戶端返回給客戶。
⑤重復上述步驟①~④,直到所有請求執行完畢。

URL格式: 如 scheme://hostname:port/path?querystring#fragment 。一個完整的URL共有6部分構成,但是並不是每個部分都一定要具備。參數解釋如下:

HTTP是基於客戶端/服務端(C/S)的架構模型,通過一個可靠的鏈接來交換信息,是一個無狀態的請求/響應協議。一個HTTP"客戶端"是一個應用程序(Web瀏覽器或其他任何客戶端),通過連接到伺服器達到向伺服器發送一個或多個HTTP的請求的目的。一個HTTP"伺服器"同樣也是一個應用程序(通常是一個Web服務,如Apache Web伺服器或IIS伺服器等),通過接收客戶端的請求並向客戶端發送HTTP響應數據。HTTP使用統一資源標識符(Uniform Resource Identifiers, URI)來傳輸數據和建立連接。一旦建立連接後,數據消息就通過類似Internet郵件所使用的格式[RFC5322]和多用途Internet郵件擴展(MIME)[RFC2045]來傳送。

客戶端發送一個HTTP請求到伺服器的請求消息包括以下格式:請求行(request line)、請求頭部(header)、空行和請求數據四個部分組成,下圖給出了請求報文的一般格式。

如:

HTTP響應也由四個部分組成,分別是:狀態行、消息報頭、空行和響應正文。

如:

根據 HTTP 標准,HTTP 請求可以使用多種請求方法。HTTP1.0 定義了三種請求方法:GET, POST 和 HEAD方法。HTTP1.1 新增了六種請求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在請求模式中,最常用的請求方法是GET和POST方法,在爬蟲過程中至關重要。這兩個方法都是從伺服器請求一個資源,但是在正文的使用上有所不同。GET方法是網路請求最通用方法,可理解為直接請求。POST則有所區別,需要提交表單信息才能請求到信息,比如說拉勾網招聘首頁需要用戶輸入地點、薪資范圍等信息才能請求到匹配的網頁界面。

HTTP請求頭提供了關於請求,響應或者其他的發送實體的信息。下面將具體來介紹HTTP響應頭信息。

當瀏覽者訪問一個網頁時,瀏覽者的瀏覽器會向網頁所在伺服器發出請求。當瀏覽器接收並顯示網頁前,此網頁所在的伺服器會返回一個包含HTTP狀態碼的信息頭(server header)用以響應瀏覽器的請求。HTTP狀態碼的英文為HTTP Status Code。下面是常見的HTTP狀態碼:

200 - 請求成功
301 - 資源(網頁等)被永久轉移到其它URL
404 - 請求的資源(網頁等)不存在
500 - 內部伺服器錯誤

HTTP狀態碼由三個十進制數字組成,第一個十進制數字定義了狀態碼的類型,後兩個數字沒有分類的作用。HTTP狀態碼共分為5種類型:

Content-Type(內容類型),一般是指網頁中存在的 Content-Type,用於定義網路文件的類型和網頁的編碼,決定瀏覽器將以什麼形式、什麼編碼讀取這個文件,比如text/html/xml/json/jpg/gif/pdf等。Content-Type 標頭告訴客戶端實際返回的內容的內容類型,如下圖,返回的是html格式文件。

當我們在地址欄輸入 www.sina.com.cn 時,瀏覽器將顯示新浪的首頁。在這個過程中,瀏覽器都幹了哪些事情呢?通過Network的記錄,我們就可以知道。在Network中,定位到第一條記錄,點擊右側Headers,從Request Headers中可以看到瀏覽器發給新浪伺服器的請求:請求網址為 https://www.sina.com.cn/ ,請求方法為GET.

繼續往下找到Response Headers,它顯示伺服器返回的原始響應數據。其中200表示一個成功的響應,後面的OK是說明。失敗的響應有404 Not Found:網頁不存在,500 Internal Server Error:伺服器內部出錯,等等。Content-Type指示響應的內容,這里是text/html表示HTML網頁。請注意,瀏覽器就是依靠Content-Type來判斷響應的內容是網頁還是圖片,是視頻還是音樂。

HTTP響應返回的是HTML源碼,點擊Response,可以看到返回的html網頁源碼。

接著,當瀏覽器讀取到新浪首頁的HTML源碼後,它會解析HTML,顯示頁面,然後,根據HTML裡面的各種鏈接,再發送HTTP請求給新浪伺服器,拿到相應的圖片、視頻、Flash、JavaScript腳本、CSS等各種資源,最終顯示出一個完整的頁面。

參考: https://www.runoob.com/http/http-tutorial.html

更多內容可關注公共號「YJY技能修煉」~~~

往期回顧
R爬蟲在工作中的一點妙用
R爬蟲必備基礎——HTML和CSS初識
R爬蟲必備基礎——靜態網頁+動態網頁
R爬蟲必備——rvest包的使用
R爬蟲必備基礎——CSS+SelectorGadget
R爬蟲必備基礎—Chrome開發者工具(F12)

㈡ 求HTTP權威指南書籍電子版百度雲資源

《HTTP權威指南》網路網盤免費資源下載:

鏈接: https://pan..com/s/1N0nyU4pwwZv1L21u8FTXnQ 提取碼:PVYC

《HTTP權威指南》是2012年9月人民郵電出版社出版發行的圖書,作者是David Gourley、Brian Totty 。該書詳細解釋了HTTP協議,包括HTTP是如何工作的。


閱讀全文

與http協議pdf相關的資料

熱點內容
威聯通套件編譯 瀏覽:231
清刻pdf 瀏覽:982
可編程延時發生器 瀏覽:93
濱州用伺服器織夢要怎麼上傳文件 瀏覽:866
java7與java8 瀏覽:958
真空壓縮袋什麼材質好 瀏覽:935
excel批量見建文件夾 瀏覽:556
黑馬程序員就業班筆記 瀏覽:370
單片機供電自鎖電路設計 瀏覽:56
pythongui測試工具 瀏覽:834
哈曼l7功放編程 瀏覽:218
體溫單片機 瀏覽:613
快捷鍵命令不能用了 瀏覽:347
邊界層加密網格優點 瀏覽:236
linuxvi保存文件 瀏覽:535
把視頻打包出文件夾是什麼意思 瀏覽:446
如何在藏書館app上注銷賬號 瀏覽:826
51單片機架構 瀏覽:897
安卓下載東西怎麼弄 瀏覽:524
我的世界伺服器地址13 瀏覽:311