linuxio演算法_linux怎麼計算io讀寫速度

『壹』面試 linux 文件系統怎樣io到底層

前言：本文主要講解LinuxIO調度層的三種模式：cfp、deadline和noop，並給出各自的優化和適用場景建議。IO調度發生在Linux內核的IO調度層。這個層次是針對Linux的整體IO層次體系來說的。從read()或者write()系統調用的角度來說，Linux整體IO體系可以分為七層，它們分別是：VFS層：虛擬文件系統層。由於內核要跟多種文件系統打交道，而每一種文件系統所實現的數據結構和相關方法都可能不盡相同，所以，內核抽象了這一層，專門用來適配各種文件系統，並對外提供統一操作介面。文件系統層：不同的文件系統實現自己的操作過程，提供自己特有的特徵，具體不多說了，大家願意的話自己去看代碼即可。頁緩存層：負責真對page的緩存。通用塊層：由於絕大多數情況的io操作是跟塊設備打交道，所以Linux在此提供了一個類似vfs層的塊設備操作抽象層。下層對接各種不同屬性的塊設備，對上提供統一的BlockIO請求標准。IO調度層：因為絕大多數的塊設備都是類似磁碟這樣的設備，所以有必要根據這類設備的特點以及應用的不同特點來設置一些不同的調度演算法和隊列。以便在不同的應用環境下有針對性的提高磁碟的讀寫效率，這里就是大名鼎鼎的Linux電梯所起作用的地方。針對機械硬碟的各種調度方法就是在這實現的。塊設備驅動層：驅動層對外提供相對比較高級的設備操作介面，往往是C語言的，而下層對接設備本身的操作方法和規范。塊設備層：這層就是具體的物理設備了，定義了各種真對設備操作方法和規范。有一個已經整理好的[LinuxIO結構圖]，非常經典，一圖勝千言：我們今天要研究的內容主要在IO調度這一層。它要解決的核心問題是，如何提高塊設備IO的整體性能？這一層也主要是針對機械硬碟結構而設計的。眾所周知，機械硬碟的存儲介質是磁碟，磁頭在碟片上移動進行磁軌定址，行為類似播放一張唱片。這種結構的特點是，順序訪問時吞吐量較高，但是如果一旦對碟片有隨機訪問，那麼大量的時間都會浪費在磁頭的移動上，這時候就會導致每次IO的響應時間變長，極大的降低IO的響應速度。磁頭在碟片上尋道的操作，類似電梯調度，實際上在最開始的時期，Linux把這個演算法命名為Linux電梯演算法，即：如果在尋道的過程中，能把順序路過的相關磁軌的數據請求都「順便」處理掉，那麼就可以在比較小影響響應速度的前提下，提高整體IO的吞吐量。這就是我們為什麼要設計IO調度演算法的原因。目前在內核中默認開啟了三種演算法/模式：noop，cfq和deadline。嚴格算應該是兩種：因為第一種叫做noop，就是空操作調度演算法，也就是沒有任何調度操作，並不對io請求進行排序，僅僅做適當的io合並的一個fifo隊列。目前內核中默認的調度演算法應該是cfq，叫做完全公平隊列調度。這個調度演算法人如其名，它試圖給所有進程提供一個完全公平的IO操作環境。註：請大家一定記住這個詞語，cfq，完全公平隊列調度，不然下文就沒法看了。cfq為每個進程創建一個同步IO調度隊列，並默認以時間片和請求數限定的方式分配IO資源，以此保證每個進程的IO資源佔用是公平的，cfq還實現了針對進程級別的優先順序調度，這個我們後面會詳細解釋。查看和修改IO調度演算法的方法是：cfq是通用伺服器比較好的IO調度演算法選擇，對桌面用戶也是比較好的選擇。但是對於很多IO壓力較大的場景就並不是很適應，尤其是IO壓力集中在某些進程上的場景。因為這種場景我們需要的滿足某個或者某幾個進程的IO響應速度，而不是讓所有的進程公平的使用IO，比如資料庫應用。deadline調度（最終期限調度）就是更適合上述場景的解決方案。deadline實現了四個隊列：其中兩個分別處理正常read和write，按扇區號排序，進行正常io的合並處理以提高吞吐量。因為IO請求可能會集中在某些磁碟位置，這樣會導致新來的請求一直被合並，可能會有其他磁碟位置的io請求被餓死。另外兩個處理超時read和write的隊列，按請求創建時間排序，如果有超時的請求出現，就放進這兩個隊列，調度演算法保證超時（達到最終期限時間）的隊列中的請求會優先被處理，防止請求被餓死。不久前，內核還是默認標配四種演算法，還有一種叫做as的演算法（Anticipatoryscheler），預測調度演算法。一個高大上的名字，搞得我一度認為Linux內核都會算命了。結果發現，無非是在基於deadline演算法做io調度的之前等一小會時間，如果這段時間內有可以合並的io請求到來，就可以合並處理，提高deadline調度的在順序讀寫情況下的數據吞吐量。其實這根本不是啥預測，我覺得不如叫撞大運調度演算法，當然這種策略在某些特定場景差效果不錯。但是在大多數場景下，這個調度不僅沒有提高吞吐量，還降低了響應速度，所以內核乾脆把它從默認配置里刪除了。畢竟Linux的宗旨是實用，而我們也就不再這個調度演算法上多費口舌了。1、cfq：完全公平隊列調度cfq是內核默認選擇的IO調度隊列，它在桌面應用場景以及大多數常見應用場景下都是很好的選擇。如何實現一個所謂的完全公平隊列（CompletelyFairQueueing）？首先我們要理解所謂的公平是對誰的公平？從操作系統的角度來說，產生操作行為的主體都是進程，所以這里的公平是針對每個進程而言的，我們要試圖讓進程可以公平的佔用IO資源。那麼如何讓進程公平的佔用IO資源？我們需要先理解什麼是IO資源。當我們衡量一個IO資源的時候，一般喜歡用的是兩個單位，一個是數據讀寫的帶寬，另一個是數據讀寫的IOPS。帶寬就是以時間為單位的讀寫數據量，比如，100Mbyte/s。而IOPS是以時間為單位的讀寫次數。在不同的讀寫情境下，這兩個單位的表現可能不一樣，但是可以確定的是，兩個單位的任何一個達到了性能上限，都會成為IO的瓶頸。從機械硬碟的結構考慮，如果讀寫是順序讀寫，那麼IO的表現是可以通過比較少的IOPS達到較大的帶寬，因為可以合並很多IO，也可以通過預讀等方式加速數據讀取效率。當IO的表現是偏向於隨機讀寫的時候，那麼IOPS就會變得更大，IO的請求的合並可能性下降，當每次io請求數據越少的時候，帶寬表現就會越低。從這里我們可以理解，針對進程的IO資源的主要表現形式有兩個：進程在單位時間內提交的IO請求個數和進程佔用IO的帶寬。其實無論哪個，都是跟進程分配的IO處理時間長度緊密相關的。有時業務可以在較少IOPS的情況下佔用較大帶寬，另外一些則可能在較大IOPS的情況下佔用較少帶寬，所以對進程佔用IO的時間進行調度才是相對最公平的。即，我不管你是IOPS高還是帶寬佔用高，到了時間咱就換下一個進程處理，你愛咋樣咋樣。所以，cfq就是試圖給所有進程分配等同的塊設備使用的時間片，進程在時間片內，可以將產生的IO請求提交給塊設備進行處理，時間片結束，進程的請求將排進它自己的隊列，等待下次調度的時候進行處理。這就是cfq的基本原理。當然，現實生活中不可能有真正的「公平」，常見的應用場景下，我們很肯能需要人為的對進程的IO佔用進行人為指定優先順序，這就像對進程的CPU佔用設置優先順序的概念一樣。所以，除了針對時間片進行公平隊列調度外，cfq還提供了優先順序支持。每個進程都可以設置一個IO優先順序，cfq會根據這個優先順序的設置情況作為調度時的重要參考因素。優先順序首先分成三大類：RT、BE、IDLE，它們分別是實時（RealTime）、最佳效果（BestTry）和閑置（Idle）三個類別，對每個類別的IO，cfq都使用不同的策略進行處理。另外，RT和BE類別中，分別又再劃分了8個子優先順序實現更細節的QOS需求，而IDLE只有一個子優先順序。另外，我們都知道內核默認對存儲的讀寫都是經過緩存（buffer/cache）的，在這種情況下，cfq是無法區分當前處理的請求是來自哪一個進程的。只有在進程使用同步方式（syncread或者syncwirte）或者直接IO（DirectIO）方式進行讀寫的時候，cfq才能區分出IO請求來自哪個進程。所以，除了針對每個進程實現的IO隊列以外，還實現了一個公共的隊列用來處理非同步請求。當前內核已經實現了針對IO資源的cgroup資源隔離，所以在以上體系的基礎上，cfq也實現了針對cgroup的調度支持。總的來說，cfq用了一系列的數據結構實現了以上所有復雜功能的支持，大家可以通過源代碼看到其相關實現，文件在源代碼目錄下的block/cfq-iosched.c。1.1cfq設計原理在此，我們對整體數據結構做一個簡要描述：首先，cfq通過一個叫做cfq_data的數據結構維護了整個調度器流程。在一個支持了cgroup功能的cfq中，全部進程被分成了若干個contralgroup進行管理。每個cgroup在cfq中都有一個cfq_group的結構進行描述，所有的cgroup都被作為一個調度對象放進一個紅黑樹中，並以vdisktime為key進行排序。vdisktime這個時間紀錄的是當前cgroup所佔用的io時間，每次對cgroup進行調度時，總是通過紅黑樹選擇當前vdisktime時間最少的cgroup進行處理，以保證所有cgroups之間的IO資源佔用「公平」。當然我們知道，cgroup是可以對blkio進行資源比例分配的，其作用原理就是，分配比例大的cgroup佔用vdisktime時間增長較慢，分配比例小的vdisktime時間增長較快，快慢與分配比例成正比。這樣就做到了不同的cgroup分配的IO比例不一樣，並且在cfq的角度看來依然是「公平「的。選擇好了需要處理的cgroup（cfq_group）之後，調度器需要決策選擇下一步的service_tree。service_tree這個數據結構對應的都是一系列的紅黑樹，主要目的是用來實現請求優先順序分類的，就是RT、BE、IDLE的分類。每一個cfq_group都維護了7個service_trees，其定義如下：其中service_tree_idle就是用來給IDLE類型的請求進行排隊用的紅黑樹。而上面二維數組，首先第一個維度針對RT和BE分別各實現了一個數組，每一個數組中都維護了三個紅黑樹，分別對應三種不同子類型的請求，分別是：SYNC、SYNC_NOIDLE以及ASYNC。我們可以認為SYNC相當於SYNC_IDLE並與SYNC_NOIDLE對應。idling是cfq在設計上為了盡量合並連續的IO請求以達到提高吞吐量的目的而加入的機制，我們可以理解為是一種「空轉」等待機制。空轉是指，當一個隊列處理一個請求結束後，會在發生調度之前空等一小會時間，如果下一個請求到來，則可以減少磁頭定址，繼續處理順序的IO請求。為了實現這個功能，cfq在service_tree這層數據結構這實現了SYNC隊列，如果請求是同步順序請求，就入隊這個servicetree，如果請求是同步隨機請求，則入隊SYNC_NOIDLE隊列，以判斷下一個請求是否是順序請求。所有的非同步寫操作請求將入隊ASYNC的servicetree，並且針對這個隊列沒有空轉等待機制。此外，cfq還對SSD這樣的硬碟有特殊調整，當cfq發現存儲設備是一個ssd硬碟這樣的隊列深度更大的設備時，所有針對單獨隊列的空轉都將不生效，所有的IO請求都將入隊SYNC_NOIDLE這個servicetree。每一個servicetree都對應了若干個cfq_queue隊列，每個cfq_queue隊列對應一個進程，這個我們後續再詳細說明。cfq_group還維護了一個在cgroup內部所有進程公用的非同步IO請求隊列，其結構如下：非同步請求也分成了RT、BE、IDLE這三類進行處理，每一類對應一個cfq_queue進行排隊。BE和RT也實現了優先順序的支持，每一個類型有IOPRIO_BE_NR這么多個優先順序，這個值定義為8，數組下標為0-7。我們目前分析的內核代碼版本為Linux4.4，可以看出，從cfq的角度來說，已經可以實現非同步IO的cgroup支持了，我們需要定義一下這里所謂非同步IO的含義，它僅僅表示從內存的buffer/cache中的數據同步到硬碟的IO請求，而不是aio(man7aio)或者linux的native非同步io以及lio機制，實際上這些所謂的「非同步」IO機制，在內核中都是同步實現的（本質上馮諾伊曼計算機沒有真正的「非同步」機制）。我們在上面已經說明過，由於進程正常情況下都是將數據先寫入buffer/cache，所以這種非同步IO都是統一由cfq_group中的async請求隊列處理的。那麼為什麼在上面的service_tree中還要實現和一個ASYNC的類型呢？這當然是為了支持區分進程的非同步IO並使之可以「完全公平」做准備嘍。實際上在最新的cgroupv2的blkio體系中，內核已經支持了針對bufferIO的cgroup限速支持，而以上這些可能容易混淆的一堆類型，都是在新的體系下需要用到的類型標記。新體系的復雜度更高了，功能也更加強大，但是大家先不要著急，正式的cgroupv2體系，在Linux4.5發布的時候會正式跟大家見面。我們繼續選擇service_tree的過程，三種優先順序類型的service_tree的選擇就是根據類型的優先順序來做選擇的，RT優先順序最高，BE其次，IDLE最低。就是說，RT里有，就會一直處理RT，RT沒了再處理BE。每個service_tree對應一個元素為cfq_queue排隊的紅黑樹，而每個cfq_queue就是內核為進程（線程）創建的請求隊列。每一個cfq_queue都會維護一個rb_key的變數，這個變數實際上就是這個隊列的IO服務時間（servicetime）。這里還是通過紅黑樹找到servicetime時間最短的那個cfq_queue進行服務，以保證「完全公平」。選擇好了cfq_queue之後，就要開始處理這個隊列里的IO請求了。這里的調度方式基本跟deadline類似。cfq_queue會對進入隊列的每一個請求進行兩次入隊，一個放進fifo中，另一個放進按訪問扇區順序作為key的紅黑樹中。默認從紅黑樹中取請求進行處理，當請求的延時時間達到deadline時，就從紅黑樹中取等待時間最長的進行處理，以保證請求不被餓死。這就是整個cfq的調度流程，當然其中還有很多細枝末節沒有交代，比如合並處理以及順序處理等等。1.2cfq的參數調整理解整個調度流程有助於我們決策如何調整cfq的相關參數。所有cfq的可調參數都可以在/sys/class/block/sda/queue/iosched/目錄下找到，當然，在你的系統上，請將sda替換為相應的磁碟名稱。我們來看一下都有什麼：這些參數部分是跟機械硬碟磁頭尋道方式有關的，如果其說明你看不懂，請先補充相關知識：back_seek_max:磁頭可以向後定址的最大范圍，默認值為16M。back_seek_penalty:向後定址的懲罰系數。這個值是跟向前定址進行比較的。以上兩個是為了防止磁頭尋道發生抖動而導致定址過慢而設置的。基本思路是這樣，一個io請求到來的時候，cfq會根據其定址位置預估一下其磁頭尋道成本。設置一個最大值back_seek_max，對於請求所訪問的扇區號在磁頭後方的請求，只要定址范圍沒有超過這個值，cfq會像向前定址的請求一樣處理它。再設置一個評估成本的系數back_seek_penalty，相對於磁頭向前定址，向後定址的距離為1/2(1/back_seek_penalty)時，cfq認為這兩個請求定址的代價是相同。這兩個參數實際上是cfq判斷請求合並處理的條件限制，凡事復合這個條件的請求，都會盡量在本次請求處理的時候一起合並處理。fifo_expire_async:設置非同步請求的超時時間。同步請求和非同步請求是區分不同隊列處理的，cfq在調度的時候一般情況都會優先處理同步請求，之後再處理非同步請求，除非非同步請求符合上述合並處理的條件限制范圍內。當本進程的隊列被調度時，cfq會優先檢查是否有非同步請求超時，就是超過fifo_expire_async參數的限制。如果有，則優先發送一個超時的請求，其餘請求仍然按照優先順序以及扇區編號大小來處理。fifo_expire_sync:這個參數跟上面的類似，區別是用來設置同步請求的超時時間。slice_idle:參數設置了一個等待時間。這讓cfq在切換cfq_queue或servicetree的時候等待一段時間，目的是提高機械硬碟的吞吐量。一般情況下，來自同一個cfq_queue或者servicetree的IO請求的定址局部性更好，所以這樣可以減少磁碟的定址次數。這個值在機械硬碟上默認為非零。當然在固態硬碟或者硬RAID設備上設置這個值為非零會降低存儲的效率，因為固態硬碟沒有磁頭定址這個概念，所以在這樣的設備上應該設置為0，關閉此功能。group_idle:這個參數也跟上一個參數類似，區別是當cfq要切換cfq_group的時候會等待一段時間。在cgroup的場景下，如果我們沿用slice_idle的方式，那麼空轉等待可能會在cgroup組內每個進程的cfq_queue切換時發生。這樣會如果這個進程一直有請求要處理的話，那麼直到這個cgroup的配額被耗盡，同組中的其它進程也可能無法被調度到。這樣會導致同組中的其它進程餓死而產生IO性能瓶頸。在這種情況下，我們可以將slice_idle＝0而group_idle＝8。這樣空轉等待就是以cgroup為單位進行的，而不是以cfq_queue的進程為單位進行，以防止上述問題產生。low_latency:這個是用來開啟或關閉cfq的低延時（lowlatency）模式的開關。當這個開關打開時，cfq將會根據target_latency的參數設置來對每一個進程的分片時間（slicetime）進行重新計算。這將有利於對吞吐量的公平（默認是對時間片分配的公平）。關閉這個參數（設置為0）將忽略target_latency的值。這將使系統中的進程完全按照時間片方式進行IO資源分配。這個開關默認是打開的。我們已經知道cfq設計上有「空轉」（idling）這個概念，目的是為了可以讓連續的讀寫操作盡可能多的合並處理，減少磁頭的定址操作以便增大吞吐量。如果有進程總是很快的進行順序讀寫，那麼它將因為cfq的空轉等待命中率很高而導致其它需要處理IO的進程響應速度下降，如果另一個需要調度的進程不會發出大量順序IO行為的話，系統中不同進程IO吞吐量的表現就會很不均衡。就比如，系統內存的cache中有很多臟頁要寫回時，桌面又要打開一個瀏覽器進行操作，這時臟頁寫回的後台行為就很可能會大量命中空轉時間，而導致瀏覽器的小量IO一直等待，讓用戶感覺瀏覽器運行響應速度變慢。這個low_latency主要是對這種情況進行優化的選項，當其打開時，系統會根據target_latency的配置對因為命中空轉而大量佔用IO吞吐量的進程進行限制，以達到不同進程IO佔用的吞吐量的相對均衡。這個開關比較合適在類似桌面應用的場景下打開。target_latency:當low_latency的值為開啟狀態時，cfq將根據這個值重新計算每個進程分配的IO時間片長度。quantum:這個參數用來設置每次從cfq_queue中處理多少個IO請求。在一個隊列處理事件周期中，超過這個數字的IO請求將不會被處理。這個參數只對同步的請求有效。slice_sync:當一個cfq_queue隊列被調度處理時，它可以被分配的處理總時間是通過這個值來作為一個計算參數指定的。公式為：time_slice=slice_sync+(slice_sync/5*(4-prio))。這個參數對同步請求有效。slice_async:這個值跟上一個類似，區別是對非同步請求有效。slice_async_rq:這個參數用來限制在一個slice的時間范圍內，一個隊列最多可以處理的非同步請求個數。請求被處理的最大個數還跟相關進程被設置的io優先順序有關。1.3cfq的IOPS模式我們已經知道，默認情況下cfq是以時間片方式支持的帶優先順序的調度來保證IO資源佔用的公平。高優先順序的進程將得到的時間片長度，而低優先順序的進程時間片相對較小。當我們的存儲是一個高速並且支持NCQ（原生指令隊列）的設備的時候，我們最好可以讓其可以從多個cfq隊列中處理多路的請求，以便提升NCQ的利用率。此時使用時間片的分配方式分配資源就顯得不合時宜了，因為基於時間片的分配，同一時刻最多能處理的請求隊列只有一個。這時，我們需要切換cfq的模式為IOPS模式。切換方式很簡單，就是將slice_idle=0即可。內核會自動檢測你的存儲設備是否支持NCQ，如果支持的話cfq會自動切換為IOPS模式。另外，在默認的基於優先順序的時間片方式下，我們可以使用ionice命令來調整進程的IO優先順序。進程默認分配的IO優先順序是根據進程的nice值計算而來的，計算方法可以在manionice中看到，這里不再廢話。2、deadline：最終期限調度deadline調度演算法相對cfq要簡單很多。其設計目標是：在保證請求按照設備扇區的順序進行訪問的同時，兼顧其它請求不被餓死，要在一個最終期限前被調度到。我們知道磁頭對磁碟的尋道是可以進行順序訪問和隨機訪問的，因為尋道延時時間的關系，順序訪問時IO的吞吐量更大，隨機訪問的吞吐量小。如果我們想為一個機械硬碟進行吞吐量優化的話，那麼就可以讓調度器按照盡量復合順序訪問的IO請求進行排序，之後請求以這樣的順序發送給硬碟，就可以使IO的吞吐量更大。但是這樣做也有另一個問題，就是如果此時出現了一個請求，它要訪問的磁軌離目前磁頭所在磁軌很遠，應用的請求又大量集中在目前磁軌附近。導致大量請求一直會被合並和插隊處理，而那個要訪問比較遠磁軌的請求將因為一直不能被調度而餓死。deadline就是這樣一種調度器，能在保證IO最大吞吐量的情況下，盡量使遠端請求在一個期限內被調度而不被餓死的調度器。

『貳』 linux怎麼計算io讀寫速度

Linux下測試磁碟的讀寫IO速度，使用hdparm命令，下面是測試方法：

#hdparm-Tt/dev/sda
/dev/sda:
Timingcachedreads:6676MBin2.00seconds=3340.18MB/sec
Timingbuffereddiskreads:218MBin3.11seconds=70.11MB/sec
#可以看到，2秒鍾讀取了6676MB的緩存，約合3340.18MB/sec；
#在3.11秒中讀取了218MB磁碟(物理讀)，讀取速度約合70.11MB/sec；

『叄』 Linux中常見IO調度器

對於磁碟I/O，Linux提供了cfq, deadline和noop三種調度策略

考慮到硬體配置、實際應用場景（讀寫比例、順序還是隨機讀寫）的差異，上面的簡單解釋對於實際選擇沒有太大幫助，實際該選擇哪個基本還是要實測來驗證。不過下面幾條說明供參考：

NOOP全稱No Operation,中文名稱電梯式調度器，該演算法實現了最簡單的FIFO隊列，所有I/O請求大致按照先來後到的順序進行操作。NOOP實現了一個簡單的FIFO隊列,它像電梯的工作方式一樣對I/O請求進行組織。它是基於先入先出（FIFO）隊列概念的 Linux 內核里最簡單的I/O 調度器。此調度程序最適合於固態硬碟。

Deadline翻譯成中文是截止時間調度器，是對Linus Elevator的一種改進，它避免有些請求太長時間不能被處理。另外可以區分對待讀操作和寫操作。DEADLINE額外分別為讀I/O和寫I/O提供了FIFO隊列。

Deadline對讀寫request進行了分類管理，並且在調度處理的過程中讀請求具有較高優先順序。這主要是因為讀請求往往是同步操作，對延遲時間比較敏感，而寫操作往往是非同步操作，可以盡可能的將相鄰訪問地址的請求進行合並，但是，合並的效率越高，延遲時間會越長。因此，為了區別對待讀寫請求類型，deadline採用兩條鏈表對讀寫請求進行分類管理。但是，引入分類管理之後，在讀優先的情況下，寫請求如果長時間得到不到調度，會出現餓死的情況，因此，deadline演算法考慮了寫餓死的情況，從而保證在讀優先調度的情況下，寫請求不會被餓死。

總體來講，deadline演算法對request進行了優先權控制調度，主要表現在如下幾個方面：

CFQ全稱Completely Fair Scheler ，中文名稱完全公平調度器，它是現在許多 Linux 發行版的默認調度器，CFQ是內核默認選擇的I/O調度器。它將由進程提交的同步請求放到多個進程隊列中，然後為每個隊列分配時間片以訪問磁碟。 對於通用的伺服器是最好的選擇，CFQ均勻地分布對I/O帶寬的訪問 。CFQ為每個進程和線程，單獨創建一個隊列來管理該進程所產生的請求,以此來保證每個進程都能被很好的分配到I/O帶寬，I/O調度器每次執行一個進程的4次請求。該演算法的特點是按照I/O請求的地址進行排序，而不是按照先來後到的順序來進行響應。簡單來說就是給所有同步進程分配時間片，然後才排隊訪問磁碟。

多隊列無操作I / O調度程序。不對請求進行重新排序，最小的開銷。NVME等快速隨機I / O設備的理想選擇。

這是對最後期限I / O調度程序的改編，但設計用於多隊列設備。一個出色的多面手，CPU開銷相當低。

『肆』 Linux的五種IO模型

在linux中，對於一次讀取IO請求（不僅僅是磁碟，還有網路）的操作，數據並不會直接拷貝到用戶程序的用戶空間緩沖區。它首先會被拷貝到操作系統的內核空間，然後才會從操作系統內核的緩沖區拷貝到用戶空間的緩沖區。
大概是這個樣子。

從圖中可以看見，這是分四步進行的，而這四步裡面有些細節，就有了這5種IO模型

前四種為同步IO，後一種為非同步IO，什麼是同步非同步可以看看我之前寫的同步與非同步，阻塞與非阻塞。

應用進程發起系統調用後就阻塞了，直到內核buffer拷貝到用戶buffer，發出成功提示後才繼續執行。

適用場景：並發量小的要及時響應的網路應用開發，JavaBIO。
優點：易於開發，不消耗CPU資源（線程阻塞），及時響應。
缺點：不適用與並發量大的網路應用開發，一個請求一個線程，系統開銷大。

應用進程發起系統調用，內核立馬返回一個自己當前的緩沖區的狀態（錯誤或者說成功），假如
為錯誤則隔段時間再系統調用（輪詢），直到返回成功為止。另外再說一點，有人說輪詢之間可以設置一個時間，例如每幾秒執行一次，然後在這段期間程序可以干自己的事情。（這個我不清楚是不是，雖然理論上可以實現，但是我覺得第一種與第二種的區別應該強調的是是否放棄CPU，第二種有點CAS+輪詢這種輕量級鎖的感覺，第一種就是那種重量級鎖的感覺）。

適用場景：並發量小且不用技術響應的網路應用開發
優點：易於開發，可以在輪詢的間斷期間繼續執行程序。
缺點：不適用與並發量大的網路應用開發，一個請求一個線程，系統開銷大。消耗CPU資源（輪詢），不及時響應。

將多個IO注冊到一個復用器上（select，poll，epoll），然後一個進程監視所有注冊進來的IO。
進程阻塞在select上，而不是真正阻塞在IO系統調用上。當其中任意一個注冊的IO的內核緩沖區有了數據，select就會返回（告訴程序內核態緩存有數據了），然後用戶進程再發起調用，數據就從內核態buffer轉到用態buffer（這段期間也是要阻塞的）。

適用場景：並發量大且對響應要求較為高的網路應用開發，JavaNIO
優點：將阻塞從多個進程轉移到了一個select調用身上，假如並發量大的話select調用是不易被阻塞的，或者說阻塞時間短的。
缺點：不易開發，實現難度大，當並發量小的時候還不如同步阻塞模型。

應用程序向內核注冊一個信號處理程序，然後立即返回，當數據准備好了以後（數據到了內核buffer），內核個應用進程一個信號，然後應用進程通過信號處理程序發起系統調用，然後阻塞直達數據從內核buffer復制到用戶buffer。

優點：將阻塞從多個進程轉移到了一個select調用身上，假如並發量大的話select調用是不易被阻塞的，或者說阻塞時間短的。
缺點：不易開發，實現難度大。

以上四個IO模型都可以看出來，到最後用戶進程都要在數據從內核buffer復制到用戶buffer時阻塞，直到內核告訴進程准備成功。這就是同步進程，就是發出一個功能調用時，在沒有得到結果之前，該調用就不返回或繼續執行後續操作。

就是發出一個功能調用時，在沒有得到結果之前，該調用就不返回或繼續執行後續操作

這個就是直到數據完成到用戶buffer才通知。

應用場景：Java AIO，適合高性能高並發應用。
優點：不阻塞，減少了線程切換，
缺點：難以實現，要操作系統支持。

『伍』 Linux 磁碟IO

磁碟結構與數據存儲方式, 數據是如何存儲的，又通過怎樣的方式被訪問？

機械硬碟主要由磁碟碟片、磁頭、主軸與傳動軸等組成；數據就存放在磁碟碟片中

現代硬碟尋道都是採用CHS( Cylinder Head Sector )的方式，硬碟讀取數據時，讀寫磁頭沿徑向移動，移到要讀取的扇區所在磁軌的上方，這段時間稱為 尋道時間(seek time) 。 因讀寫磁頭的起始位置與目標位置之間的距離不同，尋道時間也不同 。磁頭到達指定磁軌後，然後通過碟片的旋轉，使得要讀取的扇區轉到讀寫磁頭的下方，這段時間稱為 旋轉延遲時間(rotational latencytime) 。然後再讀寫數據，讀寫數據也需要時間，這段時間稱為 傳輸時間(transfer time) 。

固態硬碟主要由主控晶元、快閃記憶體顆粒與緩存組成；數據就存放在快閃記憶體晶元中
通過主控晶元進行定址，因為是電信號方式，沒有任何物理結構，所以定址速度非常快且與數據存儲位置無關

如何查看系統IO狀態

查看磁碟空間

調用 open , fwrite 時到底發生了什麼?

在一個IO過程中，以下5個API/系統調用是必不可少的
Create 函數用來打開一個文件，如果該文件不存在，那麼需要在磁碟上創建該文件
Open 函數用於打開一個指定的文件。如果在 Open 函數中指定 O_CREATE 標記，那麼 Open 函數同樣可以實現 Create 函數的功能
Clos e函數用於釋放文件句柄
Write 和 Read 函數用於實現文件的讀寫過程

O_SYNC (先寫緩存, 但是需要實際落盤之後才返回, 如果接下來有讀請求, 可以從內存讀 ), write-through
O_DSYNC (D=data, 類似O_SYNC, 但是只同步數據, 不同步元數據)
O_DIRECT (直接寫盤, 不經過緩存)
O_ASYNC (非同步IO, 使用信號機制實現, 不推薦, 直接用aio_xxx)
O_NOATIME (讀取的時候不更新文件 atime(access time))

sync() 全局緩存寫回磁碟
fsync() 特定fd的sync()
fdatasync() 只刷數據, 不同步元數據

mount noatime(全局不記錄atime), re方式(只讀), sync(同步方式)

一個IO的傳奇一生這里有一篇非常好的資料，講述了整個IO過程；
下面簡單記錄下自己的理解的一次常見的Linux IO過程，想了解更詳細及相關源碼，非常推薦閱讀上面的原文

Linux IO體系結構

[站外圖片上傳中...(image-38a7b-1644137945193)]

Superblock 超級描述了整個文件系統的信息。為了保證可靠性，可以在每個塊組中對superblock進行備份。為了避免superblock冗餘過多，可以採用稀疏存儲的方式，即在若干個塊組中對superblock進行保存，而不需要在所有的塊組中都進行備份
GDT 組描述符表 組描述符表對整個組內的數據布局進行了描述。例如，數據塊點陣圖的起始地址是多少？inode點陣圖的起始地址是多少？inode表的起始地址是多少？塊組中還有多少空閑塊資源等。組描述符表在superblock的後面
數據塊點陣圖 數據塊點陣圖描述了塊組內數據塊的使用情況。如果該數據塊已經被某個文件使用，那麼點陣圖中的對應位會被置1，否則該位為0
Inode點陣圖 Inode點陣圖描述了塊組內inode資源使用情況。如果一個inode資源已經使用，那麼對應位會被置1
Inode表 （即inode資源）和數據塊。這兩塊占據了塊組內的絕大部分空間，特別是數據塊資源

一個文件是由inode進行描述的。一個文件佔用的數據塊block是通過inode管理起來的 。在inode結構中保存了直接塊指針、一級間接塊指針、二級間接塊指針和三級間接塊指針。對於一個小文件，直接可以採用直接塊指針實現對文件塊的訪問；對於一個大文件，需要採用間接塊指針實現對文件塊的訪問

最簡單的調度器。它本質上就是一個鏈表實現的 fifo 隊列，並對請求進行簡單的合並處理。
調度器本身並沒有提供任何可以配置的參數

讀寫請求被分成了兩個隊列，一個用訪問地址作為索引，一個用進入時間作為索引，並且採用兩種方式將這些request管理起來；
在請求處理的過程中，deadline演算法會優先處理那些訪問地址臨近的請求，這樣可以最大程度的減少磁碟抖動的可能性。
只有在有些request即將被餓死的時候，或者沒有辦法進行磁碟順序化操作的時候，deadline才會放棄地址優先策略，轉而處理那些即將被餓死的request

deadline演算法可調整參數
read_expire : 讀請求的超時時間設置(ms)。當一個讀請求入隊deadline的時候，其過期時間將被設置為當前時間＋read_expire，並放倒fifo_list中進行排序
write_expire :寫請求的超時時間設置(ms)
fifo_batch :在順序（sort_list）請求進行處理的時候，deadline將以batch為單位進行處理。每一個batch處理的請求個數為這個參數所限制的個數。在一個batch處理的過程中，不會產生是否超時的檢查，也就不會產生額外的磁碟尋道時間。這個參數可以用來平衡順序處理和飢餓時間的矛盾，當飢餓時間需要盡可能的符合預期的時候，我們可以調小這個值，以便盡可能多的檢查是否有飢餓產生並及時處理。增大這個值當然也會增大吞吐量，但是會導致處理飢餓請求的延時變長
writes_starved :這個值是在上述deadline出隊處理第一步時做檢查用的。用來判斷當讀隊列不為空時，寫隊列的飢餓程度是否足夠高，以時deadline放棄讀請求的處理而處理寫請求。當檢查存在有寫請求的時候，deadline並不會立即對寫請求進行處理，而是給相關數據結構中的starved進行累計，如果這是第一次檢查到有寫請求進行處理，那麼這個計數就為1。如果此時writes_starved值為2，則我們認為此時飢餓程度還不足夠高，所以繼續處理讀請求。只有當starved >= writes_starved的時候，deadline才回去處理寫請求。可以認為這個值是用來平衡deadline對讀寫請求處理優先順序狀態的，這個值越大，則寫請求越被滯後處理，越小，寫請求就越可以獲得趨近於讀請求的優先順序
front_merges :當一個新請求進入隊列的時候，如果其請求的扇區距離當前扇區很近，那麼它就是可以被合並處理的。而這個合並可能有兩種情況，一個是向當前位置後合並，另一種是向前合並。在某些場景下，向前合並是不必要的，那麼我們就可以通過這個參數關閉向前合並。默認deadline支持向前合並，設置為0關閉

在調度一個request時，首先需要選擇一個一個合適的cfq_group。Cfq調度器會為每個cfq_group分配一個時間片，當這個時間片耗盡之後，會選擇下一個cfq_group。每個cfq_group都會分配一個vdisktime，並且通過該值採用紅黑樹對cfq_group進行排序。在調度的過程中，每次都會選擇一個vdisktime最小的cfq_group進行處理。
一個cfq_group管理了7棵service tree，每棵service tree管理了需要調度處理的對象cfq_queue。因此，一旦cfq_group被選定之後，需要選擇一棵service tree進行處理。這7棵service tree被分成了三大類，分別為RT、BE和IDLE。這三大類service tree的調度是按照優先順序展開的

通過優先順序可以很容易的選定一類Service tree。當一類service tree被選定之後，採用service time的方式選定一個合適的cfq_queue。每個Service tree是一棵紅黑樹，這些紅黑樹是按照service time進行檢索的，每個cfq_queue都會維護自己的service time。分析到這里，我們知道，cfq演算法通過每個cfq_group的vdisktime值來選定一個cfq_group進行服務，在處理cfq_group的過程通過優先順序選擇一個最需要服務的service tree。通過該Service tree得到最需要服務的cfq_queue。該過程在 cfq_select_queue 函數中實現

一個cfq_queue被選定之後，後面的過程和deadline演算法有點類似。在選擇request的時候需要考慮每個request的延遲等待時間，選擇那種等待時間最長的request進行處理。但是，考慮到磁碟抖動的問題，cfq在處理的時候也會進行順序批量處理，即將那些在磁碟上連續的request批量處理掉

cfq調度演算法的參數
back_seek_max :磁頭可以向後定址的最大范圍，默認值為16M
back_seek_penalty :向後定址的懲罰系數。這個值是跟向前定址進行比較的

fifo_expire_async :設置非同步請求的超時時間。同步請求和非同步請求是區分不同隊列處理的，cfq在調度的時候一般情況都會優先處理同步請求，之後再處理非同步請求，除非非同步請求符合上述合並處理的條件限制范圍內。當本進程的隊列被調度時，cfq會優先檢查是否有非同步請求超時，就是超過fifo_expire_async參數的限制。如果有，則優先發送一個超時的請求，其餘請求仍然按照優先順序以及扇區編號大小來處理
fifo_expire_sync :這個參數跟上面的類似，區別是用來設置同步請求的超時時間
slice_idle :參數設置了一個等待時間。這讓cfq在切換cfq_queue或service tree的時候等待一段時間，目的是提高機械硬碟的吞吐量。一般情況下，來自同一個cfq_queue或者service tree的IO請求的定址局部性更好，所以這樣可以減少磁碟的定址次數。這個值在機械硬碟上默認為非零。當然在固態硬碟或者硬RAID設備上設置這個值為非零會降低存儲的效率，因為固態硬碟沒有磁頭定址這個概念，所以在這樣的設備上應該設置為0，關閉此功能
group_idle :這個參數也跟上一個參數類似，區別是當cfq要切換cfq_group的時候會等待一段時間。在cgroup的場景下，如果我們沿用slice_idle的方式，那麼空轉等待可能會在cgroup組內每個進程的cfq_queue切換時發生。這樣會如果這個進程一直有請求要處理的話，那麼直到這個cgroup的配額被耗盡，同組中的其它進程也可能無法被調度到。這樣會導致同組中的其它進程餓死而產生IO性能瓶頸。在這種情況下，我們可以將slice_idle ＝ 0而group_idle ＝ 8。這樣空轉等待就是以cgroup為單位進行的，而不是以cfq_queue的進程為單位進行，以防止上述問題產生
low_latency :這個是用來開啟或關閉cfq的低延時（low latency）模式的開關。當這個開關打開時，cfq將會根據target_latency的參數設置來對每一個進程的分片時間（slice time）進行重新計算。這將有利於對吞吐量的公平（默認是對時間片分配的公平）。關閉這個參數（設置為0）將忽略target_latency的值。這將使系統中的進程完全按照時間片方式進行IO資源分配。這個開關默認是打開的

target_latency :當low_latency的值為開啟狀態時，cfq將根據這個值重新計算每個進程分配的IO時間片長度
quantum :這個參數用來設置每次從cfq_queue中處理多少個IO請求。在一個隊列處理事件周期中，超過這個數字的IO請求將不會被處理。這個參數只對同步的請求有效
slice_sync :當一個cfq_queue隊列被調度處理時，它可以被分配的處理總時間是通過這個值來作為一個計算參數指定的。公式為： time_slice = slice_sync + (slice_sync/5 * (4 - prio)) 這個參數對同步請求有效
slice_async :這個值跟上一個類似，區別是對非同步請求有效
slice_async_rq :這個參數用來限制在一個slice的時間范圍內，一個隊列最多可以處理的非同步請求個數。請求被處理的最大個數還跟相關進程被設置的io優先順序有關

通常在Linux上使用的IO介面是同步方式的，進程調用 write / read 之後會阻塞陷入到內核態，直到本次IO過程完成之後，才能繼續執行，下面介紹的非同步IO則沒有這種限制，但是當前Linux非同步IO尚未成熟

目前Linux aio還處於較不成熟的階段，只能在 O_DIRECT 方式下才能使用(glibc_aio)，也就是無法使用默認的Page Cache機制

正常情況下，使用aio族介面的簡要方式如下：

io_uring 是 2019 年 5 月發布的 Linux 5.1 加入的一個重大特性 —— Linux 下的全新的非同步 I/O 支持，希望能徹底解決長期以來 Linux AIO 的各種不足
io_uring 實現非同步 I/O 的方式其實是一個生產者-消費者模型:

邏輯卷管理
RAID0
RAID1
RAID5（糾錯）
條帶化

Linux系統性能調整：IO過程
Linux的IO調度
一個IO的傳奇一生
理解inode
Linux 文件系統是怎麼工作的？
Linux中Buffer cache性能問題一探究竟
Asynchronous I/O and event notification on linux
AIO 的新歸宿：io_uring
Linux 文件 I/O 進化史（四）：io_uring —— 全新的非同步 I/O

『陸』 Linux磁碟I/O子系統

上文學到不管什麼文件系統類型，都通過VFS(虛擬文件系統層)讀和寫等操作文件，寫文件的元數據和文件的實際數據到磁碟。但數據是怎麼落地磁碟中的呢？落到磁碟中的都經過什麼組件？

以一個寫數據到磁碟為例，給出Linux I/O子系統的體系結構。

當磁碟執行寫入操作時發生的基本操作 (假設磁碟上扇區中的文件數據已經被讀取到分頁緩存)。

1) 一個進程通過write()系統調用 VFS虛擬文件系統請求寫一個文件。

2) 內核更新已映射文件的分頁緩存。

3) 內核線程 pdflush/Per-BDI flush將分頁緩存刷新到磁碟。

4) 同時 VFS虛擬文件系統層在一個bio(block input output)結構中放置每個塊緩沖，並向塊設備層提交寫請求。

5) 塊設備層從上層得到請求，並執行一個 I/O電梯操作，將請求放置到I/O 請求隊列。

6) 設備驅動器（比如SCSI 或其他設備特定的驅動器）將執行寫操作。

7) 磁碟設備固件執行硬體操作，如在碟片扇區上定位磁頭，旋轉，數據傳輸。

過去的20年中，處理器性能的改進要超過計算機系統中的其他組件，如處理器緩存、物理內存及磁碟等等。訪問內存和磁碟的速度較慢會限制整個系統的性能，怎麼解決這個問題呢？引入磁碟緩存機制，在較快的存儲器中緩存頻繁使用的數據，減少了訪問較慢的存儲器的次數。

磁碟緩存機制有以下3個地方解決：

引入存儲層次結構，在CPU和磁碟之間放置L1緩存、L2緩存、物理內存和一些其他緩存減少這種不匹配，從而讓進程減少訪問較慢的內存和磁碟的次數，避免CPU花費更多的時間等待來自較慢磁碟驅動器的數據。

另外一種解決思路：在更快的存儲器上實現更高的緩存命中率，就可能更快地訪問數據。怎麼提高緩存命中率呢？引入參考局部性(locality of reference) 的技術。這項技術基於以下2個原則：

1) 大多數最近使用過的數據，在不久的將來有較高的幾率被再次使用(時間局部性)。

2) 駐留在數據附近的數據有較高的幾率被再次使用(空間局部性)。

Linux在許多組件中使用這些原則，比如分頁緩存、文件對象緩存（索引節點緩存、目錄條目緩存等等）、預讀緩沖等。

以進程從磁碟讀取數據並將數據復制到內存的過程為例。進程可以從緩存在內存中的數據副本中檢索相同的數據，用於讀和寫。

1) 進程寫入新數據

當一個進程試圖改變數據時，進程首先在內存中改變數據。此時磁碟上的數據和內存中的數據是不相同的，並且內存中的數據被稱為臟頁(dirty page) 。臟頁中的數據應該盡快被同步到磁碟上，因為如果系統突然發生崩潰(電源故障)則內存中的數據會丟失。

2) 將內存中的數據刷新到磁碟

同步臟數據緩沖的過程被稱為刷新。在Linux 2.6.32內核之前(Red Hat Enterprise Linux 5)，通過內核線程pdflush將臟頁數據刷新到磁碟。在Linux 2.6.32內核中(Red Hat Enterprise Linux 6.x)pdflush被Per-BDI flush線程(BDI=Backing Device Interface)取代，Per-BDI flush線程以flush-MAJOR：MINOR的形式出現在進程列表中。當內存中臟頁比例超過閥值時，就會發生刷新(flush)。

塊層處理所有與塊設備操作相關的活動。塊層中的關鍵數據結構是bio(block input output)結構，bio結構是在虛擬文件系統層和塊層之間的一個介面。

當執行寫的時候，虛擬文件系統層試圖寫入由塊緩沖區構成的頁緩存，將連續的塊放置在一起構成bio結構，然後將其發送到塊層。

塊層處理bio請求，並鏈接這些請求進入一個被稱為I/O請求的隊列。這個鏈接的操作被稱為 I/O電梯調度(I/O elevator)。問個問題：為啥叫電梯調度呢？

Linux 2.4內核使用的是一種單一的通用I/O電梯調度方法，2.6內核提供4種電梯調度演算法供用戶自己選擇。因為Linux操作系統適用的場合很廣泛，所以I/O設備和工作負載特性都會有明顯的變化。

1）CFQ(Complete Fair Queuing，完全公平隊列)

CFQ電梯調度為每個進程維護一個I/O隊列，從而對進程實現一個QoS(服務質量)策略。CFQ電梯調度能夠很好地適應存在很多競爭進程的大型多用戶系統。它積極地避免進程餓死並具有低延遲特徵。從2.6.18內核發行版開始，CFQ電梯調度成為默認I/O調度器。

CFQ為每個進程/線程單獨創建一個隊列來管理產生的請求，各隊列之間用時間片來調度，以保證每個進程都能分配到合適的I/O帶寬。I/O調度器每次執行一個進程的4個請求。

2）Deadline

Deadline是一種循環的電梯調度(round robin)方法，Deadline 演算法實現了一個近似於實時的I/O子系統。在保持良好的磁碟吞吐量的同時，Deadline電梯調度既提供了出色的塊設備扇區的順序訪問，又確保一個進程不會在隊列中等待太久導致餓死。

Deadline調度器為了兼顧這兩個方面，引入了4個隊列，這4個隊列可分為兩類，每一類都由讀和寫兩種隊列組成。一類隊列用來對請求按起始扇區序號進行排序（通過紅黑樹來組織），稱為sort_list；另一類對請求按生成時間進行排序（由鏈表來組織），稱為fifo_list。每當確定了一個傳輸方向（讀或寫），系統都將會從相應的sort_list中將一批連續請求調度到請求隊列里，具體的數目由fifo_batch來確定。只有遇到三種情況才會導致一次批量傳輸的結束：1.對應的sort_list中已經沒有請求了；2.下一個請求的扇區不滿足遞增的要求；3.上一個請求已經是批量傳輸的最後一個請求了。

所有的請求在生成時都會被賦上一個期限值，並且按期限值將它們排序在fifo_list中，讀請求的期限時長默認為500ms，寫請求的期限時長默認為5s。在Deadline調度器定義了一個writes_starved默認值為2，寫請求的飢餓線。內核總是優先處理讀請求，當餓死進程的次數超過了writes_starved後，才會去考慮寫請求。為什麼內核會偏袒讀請求呢? 這是從整體性能上進行考慮的。讀請求和應用程序的關系是同步的，因為應用程序要等待讀取完畢，方能進行下一步工作所以讀請求會阻塞進程，而寫請求則不一樣。應用程序發出寫請求後，內存的內容何時被寫入塊設備對程序的影響並不大，所以調度器會優先處理讀請求。

3) NOOP

一個簡單的FIFO 隊列，不執行任何數據排序。NOOP 演算法簡單地合並相鄰的數據請求，所以增加了少量的到磁碟I/O的處理器開銷。NOOP電梯調度假設一個塊設備擁有它自己的電梯演算法。當後台存儲設備能重新排序和合並請求，並能更好地了解真實的磁碟布局時，通常選擇NOOP調度，

4）Anticipatory

Anticipatory本質上與Deadline一樣，但Anticipatory電梯調度在處理最後一個請求之後會等待一段很短的時間，約6ms(可調整antic_expire改變該值)，如果在此期間產生了新的I/O請求，它會在每個6ms中插入新的I/O操作，這樣可以將一些小的I/O請求合並成一個大的I/O請求，從而用I/O延時換取最大的I/O吞吐量。

Linux內核使用設備驅動程序得到設備的控制權。設備驅動程序通常是一個獨立的內核模塊，通常針對每個設備(或是設備組)而提供，以便這些設備在Linux操作系統上可用。一旦載入了設備驅動程序，將被當作Linux內核的一部分運行，並能控制設備的運行。

SCSI (Small Computer System Interface，小型計算機系統介面)是最常使用的I/O設備技術，尤其在企業級伺服器環境中。SCSI在 Linux 內核中實現，可通過設備驅動模塊來控制SCSI設備。 SCSI包括以下模塊類型：

1) Upper IeveI drivers(上層驅動程序)。 sd_mod、sr_mod（SCSI-CDROM）、st（SCSI Tape）和sq（SCSI通用設備）等。

2) MiddIe IeveI driver(中層驅動程序) 。如scsi_mod實現了 SCSI 協議和通用SCSI功能。

3) Low IeveI drivers(底層驅動程序) 。提供對每個設備的較低級別訪問。底層驅動程序基本上是特定於某一個硬體設備的，可提供給某個設備。

4) Pseudo drive(偽驅動程序) 。如ide-scsi，用於 IDE-SCSI模擬。

通常一個較大的性能影響是文件系統元數據怎樣在磁碟上存放。引入磁碟條帶陣列 (RAID 0、RAID 5和RAID 6)解決這個問題。在一個條帶陣列上，磁頭在移動到陣列中下一個磁碟之前，單個磁碟上寫入的數據稱為 CHUNKSIZE ，所有磁碟使用一次它後返回到第一個磁碟。如果文件系統的布局沒有匹配RAID的設計，則有可能會發生一個文件系統元數據塊被分散到2個磁碟上，導致對2個磁碟發起請求。或者將所有的元數據在一個單獨的磁碟上存儲，如果該磁碟發生故障則可能導致該磁碟變成熱點。

設計RAID陣列需要考慮以下內容：

1) 文件系統使用的塊大小。

2) RAID 陣列使用的CHUNK大小。

3) RAID 陣列中同等磁碟的數量。

塊大小指可以讀取/寫入到驅動器的最小數據量，對伺服器的性能有直接的影響。塊的大小由文件系統決定，在聯機狀態下不能更改，只有重新格式化才能修改。可以使用的塊大小有1024B、2048B、4096B，默認為 4096 B。

stride條帶是在一個chunk中文件系統塊的數量。如果文件系統塊大小為4KB，則chunk大小為64KB，那麼stride是64KB/4KB=16塊。

stripe-width 是RAID陣列上一個條帶中文件系統塊的數量。比如一個3塊磁碟的RAID5陣列。按照定義，在RAID5陣列每個條帶中有1個磁碟包含奇偶校驗內容。想要得到stripe-width，首先需要知道每個條帶中有多少磁碟實際攜帶了數據塊，即3磁碟-1校驗磁碟=2數據磁碟。2個磁碟中的stride是chunk中文件系統塊的數量。因此能計算 2（磁碟）*16（stride）=32（stripe）。

創建文件系統時可以使用mkfs給定數量：mk2fs -t ext4 -b 4096 -E stripe=16,stripe_width=64 /dev/vda

導航:首頁 > 源碼編譯 > linuxio演算法

linuxio演算法

與linuxio演算法相關的資料