linux內存映射查看_Linux將設備地址映射到用戶空間內存映射與VMA

Ⅰ 詳解linux系統內存知識及調優方案

內存是計算機中重要的部件之一，它是與CPU進行溝通的橋梁。計算機中所有程序的運行都是在內存中進行的，因此內存的性能對計算機的影響非常大。內存作用是用於暫時存放CPU中的運算數據，以及與硬碟等外部存儲器交換的數據。只要計算機在運行中，CPU就會把需要運算的數據調到內存中進行運算，當運算完成後CPU再將結果傳送出來，內存的運行也決定了計算機的穩定運行。對於整個操作系統來說，內存可能是最麻煩的的設備。而其性能的好壞直接影響著整個操作系統。

我們知道CPU是不能與硬碟打交道的，只有數據被載入到內存中才可以被CPU調用。cpu在訪問內存的時候需要先像內存監控程序請求，由監控程序控制和分配內存的讀寫請求，這個監控程序叫做MMU(內存管理單元)。下面以32位系統來說明內存的訪問過程：

32位的系統上每一個進程在訪問內存的時候，每一個進程都當做自己有4個G的內存空間可用，這叫虛擬內存(地址)，虛擬內存轉化成物理內存是通過MMU來完成的。為了能夠從線性地址轉換成物理地址，需要page table(頁表)的內存空間,page table要載入到MMU上。為了完成線性地址到物理地址的映射，如果按照1個位元組1個位元組映射的話，需要一張非常大的表，這種轉換關系會非常的復雜。因此把內存空間又劃分成了另外一種存儲單元格式，通常為4K。在不同的硬體平台上，它們的大小一般是不一樣的，像x86 32位的有4k的頁;而64位的有4k頁，2M頁，4M頁，8M頁等等，默認都是4k的。每一個進程一般而言都有自己的頁路徑和頁表映射機制，不管那一個頁表都是由內核載入的。每一個進程只能看到自己的線性地址空間，想要增加新的內存的時候，只能在自己的線性地址空間中申請，並且申請後一定是通過操作系統的內核映射到物理地址空間中去找那麼一段空間，並且告訴線性地址空間准備好了，可以訪問，並且在page table中增加一條映射關系，於是就可以訪問物理內存了，這種叫做內存分配。但是新的申請一定是通過操作的內核到物理內存中去找那麼一段空間，並且告訴線性地址空間好了，可以建設映射關系，最終page table建立映射關系。

這反映了上述描述過程的大體情況。可以看到每一個用戶程序都會有自己的頁表，並且映射到對應的主存儲器上去。

根據上述文字和圖表的描述可以發現2個問題：

1.每個進程如果需要訪問內存的時候都需要去查找page table的話，勢必會造成伺服器的性能底下

2.如果主存儲器的內存滿了以後，應用程序還需要調用內存的時候怎麼辦

對於第一個問題，我們就需要藉助TLB(Translation Lookaside Buffer)翻譯後備緩沖器。TLB是一個內存管理單元，它可以用於改進虛擬地址到物理地址轉換速度的緩存。這樣每次在查找page table的時候就可以先去TLB中查找相應的頁表數據，如果有就直接返回，沒有再去查找page table，並把查找到的結果緩存中TLB中。TLB雖然解決了緩存的功能，但是在那麼page table中查找映射關系仍然很慢，所以又有了page table的分級目錄。page table可以分為1級目錄，2級目錄和偏移量

但是一個進程在運行的時候要頻繁的打開文件，關閉文件。這就意味著要頻繁的申請內存和釋放內存。有些能夠在內存中緩存數據的那些進程，他們對內存的分配和回收更多，那麼每一次分配都會在頁表中建立一個對應項。所以，就算內存的速度很快，大量頻繁的同一時間分配和釋放內存，依然會降低伺服器的整體性能。當然內存空間不夠用的時候，我們稱為oom(out of memory,內存耗盡)。當內存耗盡的時候，，整個操作系統掛了。這種情況下我們可以考慮交換分區，交換分區畢竟是由硬碟虛擬出來的內存，所以其性能與真正的內存相比，差了很多，所以要盡力避免使用交換分區。有物理內存空間的時候盡量保證全部使用物理內存。cpu無論如何是不能給交換內存打交道的，它也只能給物理內存打交道，能定址的空間也只能是物理內存。所以當真正物理內存空間不夠用的時候，會通過LRU演算法把其中最近最少使用的內存放到交換內存中去，這樣物理內存中的那段空間就可以供新的程序使用了。但是這樣會引發另外的一個問題，即原來的進程通過page table尋找的時候，那一段空間的數據已經不屬於它了。所以此刻cpu發送通知或者異常告訴這個程序，這個地址空間已不屬於它，這個時候可能會出現2種情況：

1.物理內存有可用的空間可用：這個時候cpu會根據以前的轉換策略會把交換分區中的那段內存重新送到物理內存中去，但是轉換過來的空間地址不一定會是以前的那一段空間地址，因為以前的那一段空間地址可能已經被別人使用了。

2.物理內存沒有可用的空間可用：這個時候依然會使用LRU算發把當前物理地址空間上最近最少使用的空間地址轉換到交換內存中去，並把當前進程需要的這斷在交換空間中的內存送到物理內存空間中去，並且重新建立映射關系。

上述通知或者異常出現的情況，通常叫做缺頁異常。缺頁異常也分為大異常和小異常兩種。大異常就是訪問的數據內存中沒有，不的不去硬碟上載入，無論是從交換內存中還是直接從磁碟的某個文件系統上，反正需要從硬碟上去載入，這種異常載入需要很長時間。小異常就是進程之間通過共享內存，第二個進程訪問的時候，查看本地的內存映射表沒有，但是其它進程已經擁有了這個內存頁，所以可以直接映射，這種異常載入需要的時間一般很短。

在操作系統開機的時候，每一個io設備都會像cpu申請一些列的隨機埠，這種埠叫做io埠。在IBM PC體系結構中，I/O地址空間一共提供了65,536個8位的I/O埠。正是這些io埠的存在，cpu可以與io設備進行讀寫交互的過程。在執行讀寫操作時，CPU使用地址匯流排選擇所請求的I/O埠，使用數據匯流排在CPU寄存器和埠之間傳送數據。I/O埠還可以被映射到物理地址空間：因此，處理器和I/O設備之間的通信就可以直接使用對內存進行操作的匯編語言指令(例如，mov、and、or等等)。現代的硬體設備更傾向於映射I/O，因為這樣處理的速度較快，並可以和DMA結合起來使用。這樣io在和內存傳數據的時候就不需要通過cpu，cpu把匯流排的控制權交給DMA，每次io傳數據的時候就調用DMA一次，就把cpu給解放了出來。當數據傳輸完了以後，DMA通知給cpu中斷一次。DMA在運行的時候對整個匯流排有控制許可權，當cpu發現有其它進程需要使用匯流排的時候，二者就會產生爭用。這個時候，在匯流排控制權的使用上，CPU和DMA具有相等的許可權。只要CPU委託給了DMA，就不能隨意的收回這個委託，就要等待DMA的用完。

如果沒有其它進程可以運行，或者其它進程運行的時間非常短，這個時候CPU發現我們的IO仍然沒有完成，那就意味著，CPU只能等待IO了。CPU在時間分配裡面有個iowait的值，就是CPU在等待IO花費的時間。有些是在同步調用過程中，CPU必須要等待IO的完成;否者CPU可以釋放IO的傳輸在背後自動完成，CPU自己去處理其它的事情。等硬碟數據傳輸完成以後，硬碟只需要像CPU發起一個通知即可。CPU外圍有一種設備，這個設備叫做可編程中斷控制器。每一個硬體設備為了給CPU通信，在剛開機的時候，在BIOS實現檢測的時候，這個設備就要到可編程中斷控制器上去注冊一個所謂的中斷號。那麼這個號碼就歸這個硬體使用了。當前主機上可能有多個硬體，每一個硬體都有自己的號碼，CPU在收到中斷號以後，就能夠通過中斷相量表查找到那個硬體設備進行中斷。並且就由對應的IO埠過來處理了。

CPU正在運行其它進程，當一個中斷請求發過來的時候，CPU會立即終止當前正在處理的進程，而去處理中斷。當前CPU掛起當前正在處理的進程，轉而去執行中斷的過程，也叫做中斷切換。只不過，這種切換在量級別上比進程切換要低一些，而且任何中斷的優先順序通常比任何進程也要高，因為我們指的是硬體中斷。中斷還分為上半部和下半部，一般而言，上半部就是CPU在處理的時候，把它接進來，放到內存中，如果這個事情不是特別緊急(CPU或者內核會自己判斷)，因此在這種情況下，CPU回到現場繼續執行剛才掛起的進程，當這個進程處理完了，再回過頭來執行中斷的下半部分。

在32位系統中，我們的內存(線性地址)地址空間中，一般而言，低地址空間有一個G是給內核使用的，上面3個G是給進程使用的。但是應該明白，其實在內核內存當中，再往下，不是直接這樣劃分的。32位系統和64位系統可能不一樣(物理地址)，在32位系統中，最低端有那麼10多M的空間是給DMA使用的。DNA的匯流排寬度是很小的，可能只有幾位，所以定址能力很有限，訪問的內存空間也就很有限。如果DMA需要復制數據，而且自己能夠定址物理內存，還可以把數據直接壯哉進內存中去，那麼就必須保證DMA能夠定址那段內存才行。定址的前提就是把最低地址斷M，DA的定址范圍內的那一段給了DMA。所以站在這個角度來說，我們的內存管理是分區域的。

在32位系統上，16M的內存空間給了ZONE_DMA(DMA使用的物理地址空間);從16M到896M給了ZONE_NORMAL(正常物理地址空間)，對於Linux操作系統來說，是內核可以直接訪問的地址空間;從896M到1G這斷空間叫做"Reserved"(預留的物理地址空間);從1G到4G的這段物理地址空間中，我們的內核是不能直接訪問的，要想訪問必須把其中的一段內容映射到Reserved來，在Reserved中保留出那一段內存的地址編碼，我們內核才能上去訪問，所以內核不直接訪問大於1G的物理地址空間。所以在32位系統上，它訪問內存當中的數據，中間是需要一個額外步驟的。

在64位系統上，ZONE_DAM給了低端的1G地址空間，這個時候DMA的定址能力被大大加強了;ZONE_DAM32可以使用4G的空間;而大於1G以上給劃分了ZONE_NORMAL,這段空間都可以被內核直接訪問。所以在64位上，內核訪問大於1G的內存地址，就不需要額外的步驟了，效率和性能上也大大增加，這也就是為什麼要使用64位系統的原因。

在現在的PC架構上，AMD,INTER都支持一種機制，叫做PEA(物理地址擴展)。所謂PAE。指的是在32位系統的地址匯流排上，又擴展了4位，使得32位系統上的地址空間可以達到64G。當然在32為系統上，不管你的物理內存有多大，單個進程所使用的空間是無法擴展的。因為在32位的系統上，線性地址空間只有4個G，而單個進程能夠識別的訪問也只有3個G。

linux的虛擬內存子系統包含了以下幾個功能模塊：

slab allocator,zoned buddy allocator,MMU,kswapd,bdflush

slab allocator叫做slab分配器

buddy allocator又叫做buddy system，叫做夥伴系統，也是一種內存分配器

buddy system是工作在MMU之上的，而slab allocator又是工作在buddy system之上的。

設置為小於等於1G，在資料庫伺服器應該勁量避免使用交換內存

3.在應用伺服器上，可以設置為RAM*0.5，當然這個是理論值

如果不的不使用交換內存，應該把交換內存放到最靠外的磁軌分區上，因為最外邊的磁碟的訪問速度最快。所以如果有多塊硬碟，可以把每塊硬碟的最外層的磁軌拿一小部分出來作為交換分區。交換分區可以定義優先順序，因此把這些硬碟的交換內存的優先順序設置為一樣，可以實現負載均衡的效果。定義交換分區優先順序的方法為編輯/etc/fstab：

/dev/sda1 swap swap pri=5 0 0

/dev/sdb1 swap swap pri=5 0 0

/dev/sdc1 swap swap pri=5 0 0

/dev/sdd1 swap swap pri=5 0 0

四.內存耗盡時候的相關調優參數

當Linux內存耗盡的時候，它會殺死那些佔用內存最多的進程，以下三種情況會殺死進程：

1.所有的進程都是活動進程，這個時候想交換出去都沒有空閑的進程

2.沒有可用的page頁在ZONE_NORMAL中

3.有其它新進程啟動，申請內存空間的時候，要找一個空閑內存給做映射，但是這個時候找不到了

一旦內存耗盡的時候，操作系統就會啟用oom-kill機制。

在/proc/PID/目錄下有一個文件叫做oom_score,就是用來指定oom的評分的，就是壞蛋指數。

如果要手動啟用oom-kill機制的話，只需要執行echo f>/proc/sysrq-trigger即可，它會自動殺掉我們指定的壞蛋指數評分最高的那個進程

可以通過echo n > /proc/PID/oom_adj來調整一個進程的壞蛋評分指數。最終的評分指數就是2的oom_adj的值的N次方。假如我們的一個進程的oom_adj的值是5，那麼它的壞蛋評分指數就是2的5次方。

如果想禁止oom-kill功能的使用可以使用vm.panic_on_oom=1即可。

五.與容量有關的內存調優參數：

overcommit_memory,可用參數有3個，規定是否能夠過量使用內存：

0：默認設置，內核執行啟發式的過量使用處理

1：內核執行無內存的過量使用處理。使用這個值會增大內存超載的可能性

2：內存的使用量等於swap的大小+RAM*overcommit_ratio的值。如果希望減小內存的過度使用，這個值是最安全的

overcommit_ratio:將overcommit_memory指定為2時候，提供的物理RAM比例，默認為50

六.與通信相關的調優參數

常見在同一個主機中進行進程間通信的方式：

1.通過消息message;2.通過signal信號量進行通信;3.通過共享內存進行通信，跨主機常見的通信方式是rpc

以消息的方式實現進程通信的調優方案：

msgmax:以位元組為單位規定消息隊列中任意消息的最大允許大小。這個值一定不能超過該隊列的大小(msgmnb)，默認值為65536

msgmnb:以位元組為單位規定單一消息隊列的最大值(最大長度)。默認為65536位元組

msgmni:規定消息隊列識別符的最大數量(及隊列的最大數量)。64位架構機器的默認值為1985;32位架構機器的默認值為1736

以共享內存方式實現進程通信的調優方案：

shmall:以位元組為單位規定一次在該系統中可以使用的共享內存總量(單次申請的上限)

shmmax:以位元組為單位規定每一個共享內存片段的最大大小

shmmni:規定系統范圍內最大共享內存片段。在64和32位的系統上默認值都是4096

七.與容量相關的文件系統可調優參數：

file-max:列出內核分配的文件句柄的最大值

dirty_ratio:規定百分比值，當臟數據達到系統內存總數的這個百分比值後開始執行pdflush,默認為20

dirty_background_ratio:規定百分比值，當某一個進程自己所佔用的臟頁比例達到系統內存總數的這個百分比值後開始在後台執行pdflush，默認為10

dirty_expire_centisecs:pdlush每隔百分之一秒的時間開啟起來刷新臟頁，默認值為3000，所以每隔30秒起來開始刷新臟頁

dirty_writeback_centisecs:每隔百分之一秒開始刷新單個臟頁。默認值為500，所以一個臟頁的存在時間達到了5秒，就開始刷新臟

八.linux內存常用的觀察指標命令：

Memory activity

vmstat [interval] [count]

sar -r [interval] [count]

Rate of change in memory

sar -R [interval] [count]

frmpg/s:每秒釋放或者分配的內存頁，如果為正數，則為釋放的內存頁;如果為負數，則為分配的內存頁

bufpg/s:每秒buffer中獲得或者釋放的內存頁。如果為正數則為獲得的內存頁，為負數。則為釋放的內存頁

campg/s:每秒cache中獲得或者釋放的內存頁。如果為正數則為獲得的內存頁，為負數。則為釋放的內存頁

Swap activity

sar -W [interval] [count]

ALL IO

sar -B [interval] [count]

pgpgin/s:每秒從磁碟寫入到內核的塊數量

pgpgout/s:每秒從內核寫入到磁碟的塊數量

fault/s:每秒鍾出現的缺頁異常的個數

majflt/s:每秒鍾出現的大頁異常的個數

pgfree/s:每秒回收回來的頁面個數

Ⅱ 關於linux系統下的物理內存映射

內存是一種存儲設備，現在一般是ddr
sdram，地址是用來標記內存的數據的。在操作系統中物理內存指實際的ddr
sdram，而虛擬內存指的是在硬碟中的緩存，windows中是頁面文件，linux中是swap分區。cpu產生的地址是虛擬地址也可以稱作有效地址，而在cpu外地址線上的信號稱作實際地址或物理地址。這2類地址有某種對應關系，由操作系統管理。如果是x86架構的話，物理地址和虛擬地址中間還有線性地址的概念。

Ⅲ Linux將設備地址映射到用戶空間內存映射與VMA

一般情況下，用戶空間是不可能也不應該直接訪問設備的，但是，設備驅動程序中可實現mmap ()函數，這個函數可使得用戶空間能直接訪問設備的物理地址。實際上，mmap ()實現了這樣的一個映射過程:它將用戶空間的一段內存與設備內存關聯，當用戶訪問用戶空間的這段地址范圍時，實際上會轉化為對設備的訪問。
這種能力對於顯示適配器一類的設備非常有意義，如果用戶空間可直接通過內存映射訪問顯存的話，屏幕幀的各點像素將不再需要一個從用戶空間到內核空間的復制的過程。
mmap ()必須以PAGE_SIZE為單位進行映射，實際上，內存只能以頁為單位進行映射，若要映射非PAGE_SIZE整數倍的地址范圍，要先進行頁對齊，強行以PAGE_SIZE的倍數大小進行映射。
從file_operations文件操作結構體可以看出，驅動中mmap ()函數的原型如下:
int ( *mmap)(struct file *, struct vm_area_struct* ) ;
驅動中的mmap (）函數將在用戶進行mmap (）系統調用時最終被調用，mmap (）系統調用的原型與file_operations中mmap (）的原型區別很大，如下所示:
caddr_t mmap (caddr_t addr，size_t len，int prot，int flags，int fd，off_t offset);
參數fd為文件描述符，一般由open ()返回，fd也可以指定為-1，此時需指定flags參數中的MAP_ANON，表明進行的是匿名映射。
len是映射到調用用戶空間的位元組數，它從被映射文件開頭offset個位元組開始算起，offset參數一般設為0，表示從文件頭開始映射。
prot參數指定訪問許可權，可取如下幾個值的「或」:PROT_READ(可讀)、PROT_WRITE(可寫)、PROT_EXEC(可執行）和PROT_NONE（不可訪問)。
參數addr指定文件應被映射到用戶空間的起始地址，一般被指定為NULL，這樣，選擇起始地址的任務將由內核完成，而函數的返回值就是映射到用戶空間的地址。其類型caddr_t實際上就是void*。
當用戶調用mmap ()）的時候，內核會進行如下處理。
1）在進程的虛擬空間查找一塊VMA。
2）將這塊VMA進行映射。
3）如果設備驅動程序或者文件系統的file_operations定義了mmap ()操作，則調用它。
4）將這個VMA插入進程的VMA鏈表中。
file_operations中mmap (）函數的第一個參數就是步驟1）找到的VMA。
由mmap ()系統調用映射的內存可由munmap (）解除映射，這個函數的原型如下:
int munmap(caddr_t addr, size_t len ) ;
驅動程序中mmap ()的實現機制是建立頁表，並填充VMA結構體中vm_operations_struct指針。

Ⅳ LINUX內存映射問題

Linux的內存模型，一般為：

地址
作用
說明

>=0xc000 0000
內核虛擬存儲器
用戶代碼不可見區域

<0xc000 0000
Stack（用戶棧）
ESP指向棧頂

↓

↑

空閑內存

>=0x4000 0000
文件映射區

<0x4000 0000

↑

空閑內存

Heap(運行時堆)
通過brk/sbrk系統調用擴大堆，向上增長。

.data、.bss(讀寫段)
從可執行文件中載入

>=0x0804 8000（0x00008000 for arm linux）
.init、.text、.rodata(只讀段)
從可執行文件中載入

<0x0804 8000（0x00008000 for arm linux）
保留區域

運行一個測試程序，觀察其結果：

#include <stdio.h>

int main(int argc, char* argv[])

{

int first = 0;

int* p0 = malloc(1024);

int* p1 = malloc(1024 * 1024);

int* p2 = malloc(512 * 1024 * 1024 );

int* p3 = malloc(1024 * 1024 * 1024 );

printf("main=%p print=%p\n", main, printf);

printf("first=%p\n", &first);

printf("p0=%p p1=%p p2=%p p3=%p\n", p0, p1, p2, p3);

getchar();

return 0;

}

運行後，輸出結果為：

main=0x8048404 print=0x8048324

first=0xbfcd1264

p0=0x9253008 p1=0xb7ec0008 p2=0x97ebf008 p3=0x57ebe008

my pc （fc5）輸出結果如下：

main=0x80483f4 print=0x8048324
first=0xbf848660
p0=0x9ab2008 p1=0xb7e38008 p2=0x97e37008 p3=(nil)

arm-linux輸出如下結果：

main=0x8528 print=0x8404
first=0xbec9fe10
p0=0x11008 p1=0x4005a008 p2=(nil) p3=(nil)

main和print兩個函數是代碼段(.text)的，其地址符合表一的描述。

first是第一個臨時變數，由於在first之前還有一些環境變數，它的值並非0xbfffffff，而是0xbfcd1264，這是正常的。

p0是在堆中分配的，其地址小於0x4000 0000，這也是正常的。

但p1和p2也是在堆中分配的，而其地址竟大於0x4000 0000，與表一描述不符。

原因在於：運行時堆的位置與內存管理演算法相關，也就是與malloc的實現相關。關於內存管理演算法的問題，我們在後繼文章中有詳細描述，這里只作簡要說明。在glibc實現的內存管理演算法中，Malloc小塊內存是在小於0x4000 0000的內存中分配的，通過brk/sbrk不斷向上擴展，而分配大塊內存，malloc直接通過系統調用mmap實現，分配得到的地址在文件映射區，所以其地址大於0x4000 0000。

Ⅳ Linux I/O內存靜態映射

Linux移植到目標電路板的過程中，有得會建立外設IO內存物理地址到虛擬地址的靜態映射，這個映射通過在與電路板對應的map_desc結構體數組中添加新的成員來完成。iotable_init()是最終建立頁映射的函數，它通過ACHINE_START、MACHINE_END宏賦值給電路板的map_io()）函數。將Linux操作系統移植到特定平台上，MACHINE_START(或者DT_MACHINE_START)、MACHINE_END宏之間的定義針對特定電路板而設計，其中的map_io ()成員函數完成IO內存的靜態映射。在一個已經移植好操作系統的內核中，驅動工程師可以對非常規內存區域的IO內存（外設控制器寄存器、MCU內部集成的外設控制器寄存器等）依照電路板的資源使用情況添加到map_desc數組中，但是目前該方法已經不值得推薦。
Cache和DMA本身似乎是兩個毫不相關的事物。Cache被用作CPU針對內存的緩存，利用程序的空間局部性和時間局部性原理，達到較高的命中率，從而避免CPU每次都必須要與相對慢速的內存交互數據來提高數據的訪問速率。DMA可以作為內存與外設之間傳輸數據的方式，在這種傳輸方式之下，數據並不需要經過CPU中轉。
假設DMA針對內存的目的地址與Cache緩存的對象沒有重疊區域，DMA和Cache之間將相安無事。但是，如果DMA的目的地址與Cache所緩存的內存地址訪問有重疊，經過DMA操作，與Cache緩存對應的內存中的數據已經被修改，而CPU本身並不知道，它仍然認為Cache中的數據就是內存中的數據，那在以後訪問Cache映射的內存時，它仍然使用陳舊的Cache數據。這樣就會發生Cache與內存之間數據「不一致性」的錯誤。

Ⅵ Linux - 用戶態內存映射和內核態內存映射

操作系統的內存管理，主要分為三個方面。
第一，物理內存的管理，相當於會議室管理員管理會議室。
第二，虛擬地址的管理，也即在項目組的視角，會議室的虛擬地址應該如何組織。
第三，虛擬地址和物理地址如何映射，也即會議室管理員如果管理映射表。

那麼虛擬地址和物理地址如何映射呢？

每一個進程都有一個列表vm_area_struct，指向虛擬地址空間的不同的內存塊，這個變數的名字叫mmap。

其實內存映射不僅僅是物理內存和虛擬內存之間的映射，還包括將文件中的內容映射到虛擬內存空間。這個時候，訪問內存空間就能夠訪問到文件裡面的數據。而僅有物理內存和虛擬內存的映射，是一種特殊情況。

如果我們要申請小塊內存，就用brk。brk函數之前已經解析過了，這里就不多說了。如果申請一大塊內存，就要用mmap。對於堆的申請來講，mmap是映射內存空間到物理內存。

另外，如果一個進程想映射一個文件到自己的虛擬內存空間，也要通過mmap系統調用。這個時候mmap是映射內存空間到物理內存再到文件。可見mmap這個系統調用是核心，我們現在來看mmap這個系統調用。

用戶態的內存映射機制包含以下幾個部分。

物理內存根據NUMA架構分節點。每個節點裡面再分區域。每個區域裡面再分頁。

物理頁面通過夥伴系統進行分配。分配的物理頁面要變成虛擬地址讓上層可以訪問，kswapd可以根據物理頁面的使用情況對頁面進行換入換出。

對於內存的分配需求，可能來自內核態，也可能來自用戶態。

對於內核態，kmalloc在分配大內存的時候，以及vmalloc分配不連續物理頁的時候，直接使用夥伴系統，分配後轉換為虛擬地址，訪問的時候需要通過內核頁表進行映射。

對於kmem_cache以及kmalloc分配小內存，則使用slub分配器，將夥伴系統分配出來的大塊內存切成一小塊一小塊進行分配。

kmem_cache和kmalloc的部分不會被換出，因為用這兩個函數分配的內存多用於保持內核關鍵的數據結構。內核態中vmalloc分配的部分會被換出，因而當訪問的時候，發現不在，就會調用do_page_fault。

對於用戶態的內存分配，或者直接調用mmap系統調用分配，或者調用malloc。調用malloc的時候，如果分配小的內存，就用sys_brk系統調用；如果分配大的內存，還是用sys_mmap系統調用。正常情況下，用戶態的內存都是可以換出的，因而一旦發現內存中不存在，就會調用do_page_fault。

Ⅶ Linux I/O內存靜態映射

在將Linux移植到目標電路板的過程中，有得會建立外設IO內存物理地址到虛擬地址的靜態映射，這個映射通過在與電路板對應的map_desc結構體數組中添加新的成員來完成。iotable_init()是最終建立頁映射的函數，它通過ACHINE_START、MACHINE_END宏賦值給電路板的map_io()）函數。將Linux操作系統移植到特定平台上，MACHINE_START(或者DT_MACHINE_START)、MACHINE_END宏之間的定義針對特定電路板而設計，其中的map_io ()成員函數完成IO內存的靜態映射。在一個已經移植好操作系統的內核中，驅動工程師可以對非常規內存區域的IO內存（外設控制器寄存器、MCU內部集成的外設控制器寄存器等）依照電路板的資源使用情況添加到map_desc數組中，但是目前該方法已經不值得推薦。
Cache和DMA本身似乎是兩個毫不相關的事物。Cache被用作CPU針對內存的緩存，利用程序的空間局部性和時間局部性原理，達到較高的命中率，從而避免CPU每次都必須要與相對慢速的內存交互數據來提高數據的訪問速率。DMA可以作為內存與外設之間傳輸數據的方式，在這種傳輸方式之下，數據並不需要經過CPU中轉。
假設DMA針對內存的目的地址與Cache緩存的對象沒有重疊區域，DMA和Cache之間將相安無事。但是，如果DMA的目的地址與Cache所緩存的內存地址訪問有重疊，經過DMA操作，與Cache緩存對應的內存中的數據已經被修改，而CPU本身並不知道，它仍然認為Cache中的數據就是內存中的數據，那在以後訪問Cache映射的內存時，它仍然使用陳舊的Cache數據。這樣就會發生Cache與內存之間數據「不一致性」的錯誤。

導航:首頁 > 操作系統 > linux內存映射查看

linux內存映射查看

與linux內存映射查看相關的資料