linuxhugepage_Linux 內核的內存管理

⑴ linux下怎麼查看內存使用情況和CPU利用率

1. 在系統維護的過程中，隨時可能有需要查看 CPU 使用率，並根據相應信息分析系統狀況的需要。在 CentOS 中，可以通過 top 命令來查看 CPU 使用狀況。運行 top 命令後，CPU 使用狀態會以全屏的方式顯示，並且會處在對話的模式 -- 用基於 top 的命令，可以控制顯示方式等等。退出 top 的命令為 q （在 top 運行中敲 q 鍵一次）。
top命令是Linux下常用的性能分析工具，能夠實時顯示系統中各個進程的資源佔用狀況，類似於Windows的任務管理器
可以直接使用top命令後，查看%MEM的內容。可以選擇按進程查看或者按用戶查看，如想查看oracle用戶的進程內存使用情況的話可以使用如下的命令：
$ top -u oracle

2. 釋義：
PID：進程的ID
USER：進程所有者
PR：進程的優先順序別，越小越優先被執行
NInice：值
VIRT：進程佔用的虛擬內存
RES：進程佔用的物理內存
SHR：進程使用的共享內存
S：進程的狀態。S表示休眠，R表示正在運行，Z表示僵死狀態，N表示該進程優先值為負數
%CPU：進程佔用CPU的使用率
%MEM：進程使用的物理內存和總內存的百分比
TIME+：該進程啟動後佔用的總的CPU時間，即佔用CPU使用時間的累加值。
COMMAND：進程啟動命令名稱

3.操作實例:

在命令行中輸入「top」

即可啟動 top

top 的全屏對話模式可分為3部分：系統信息欄、命令輸入欄、進程列表欄。

第一部分 -- 最上部的系統信息欄：

第一行（top）：

「00:11:04」為系統當前時刻；

「3:35」為系統啟動後到現在的運作時間；

「2 users」為當前登錄到系統的用戶，更確切的說是登錄到用戶的終端數 -- 同一個用戶同一時間對系統多個終端的連接將被視為多個用戶連接到系統，這里的用戶數也將表現為終端的數目；

「load average」為當前系統負載的平均值，後面的三個值分別為1分鍾前、5分鍾前、15分鍾前進程的平均數，一般的可以認為這個數值超過 CPU 數目時，CPU 將比較吃力的負載當前系統所包含的進程；

第二行（Tasks）：

「59 total」為當前系統進程總數；

「1 running」為當前運行中的進程數；

「58 sleeping」為當前處於等待狀態中的進程數；

「0 stoped」為被停止的系統進程數；

「0 zombie」為被復原的進程數；

第三行（Cpus）：

分別表示了 CPU 當前的使用率；

第四行（Mem）：

分別表示了內存總量、當前使用量、空閑內存量、以及緩沖使用中的內存量；

第五行（Swap）：

表示類別同第四行（Mem），但此處反映著交換分區（Swap）的使用情況。通常，交換分區（Swap）被頻繁使用的情況，將被視作物理內存不足而造成的。

第二部分 -- 中間部分的內部命令提示欄：

top 運行中可以通過 top 的內部命令對進程的顯示方式進行控制。內部命令如下表：

s

- 改變畫面更新頻率

l - 關閉或開啟第一部分第一行 top 信息的表示

t - 關閉或開啟第一部分第二行 Tasks 和第三行 Cpus 信息的表示

m - 關閉或開啟第一部分第四行 Mem 和第五行 Swap 信息的表示

N - 以 PID 的大小的順序排列表示進程列表（第三部分後述）

P - 以 CPU 佔用率大小的順序排列進程列表（第三部分後述）

M - 以內存佔用率大小的順序排列進程列表（第三部分後述）

h - 顯示幫助

n - 設置在進程列表所顯示進程的數量

q - 退出 top

s -

改變畫面更新周期

第三部分 -- 最下部分的進程列表欄：

以 PID 區分的進程列表將根據所設定的畫面更新時間定期的更新。通過 top 內部命令可以控制此處的顯示方式

pmap

可以根據進程查看進程相關信息佔用的內存情況，(進程號可以通過ps查看)如下所示：
$ pmap -d 5647

ps

如下例所示：
$ ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' 其中rsz是是實際內存
$ ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' | grep oracle | sort -nrk

其中rsz為實際內存，上例實現按內存排序，由大到小

在Linux下查看內存我們一般用free命令：
[root@scs-2 tmp]# free
total used free shared buffers cached
Mem: 3266180 3250004 16176 0 110652 2668236
-/+ buffers/cache: 471116 2795064
Swap: 2048276 80160 1968116

下面是對這些數值的解釋：
total:總計物理內存的大小。
used:已使用多大。
free:可用有多少。
Shared:多個進程共享的內存總額。
Buffers/cached:磁碟緩存的大小。
第三行(-/+ buffers/cached):
used:已使用多大。
free:可用有多少。
第四行就不多解釋了。
區別：第二行(mem)的used/free與第三行(-/+ buffers/cache) used/free的區別。這兩個的區別在於使用的角度來看，第一行是從OS的角度來看，因為對於OS，buffers/cached 都是屬於被使用，所以他的可用內存是16176KB,已用內存是3250004KB,其中包括，內核（OS）使用+Application(X, oracle,etc)使用的+buffers+cached.
第三行所指的是從應用程序角度來看，對於應用程序來說，buffers/cached 是等於可用的，因為buffer/cached是為了提高文件讀取的性能，當應用程序需在用到內存的時候，buffer/cached會很快地被回收。
所以從應用程序的角度來說，可用內存=系統free memory+buffers+cached。
如上例：
2795064=16176+110652+2668236

接下來解釋什麼時候內存會被交換，以及按什麼方交換。當可用內存少於額定值的時候，就會開會進行交換。
如何看額定值：
cat /proc/meminfo

[root@scs-2 tmp]# cat /proc/meminfo
MemTotal: 3266180 kB
MemFree: 17456 kB
Buffers: 111328 kB
Cached: 2664024 kB
SwapCached: 0 kB
Active: 467236 kB
Inactive: 2644928 kB
HighTotal: 0 kB
HighFree: 0 kB
LowTotal: 3266180 kB
LowFree: 17456 kB
SwapTotal: 2048276 kB
SwapFree: 1968116 kB
Dirty: 8 kB
Writeback: 0 kB
Mapped: 345360 kB
Slab: 112344 kB
Committed_AS: 535292 kB
PageTables: 2340 kB
VmallocTotal: 536870911 kB
VmallocUsed: 272696 kB
VmallocChunk: 536598175 kB
HugePages_Total: 0
HugePages_Free: 0
Hugepagesize: 2048 kB

用free -m查看的結果：
[root@scs-2 tmp]# free -m
total used free shared buffers cached
Mem: 3189 3173 16 0 107 2605
-/+ buffers/cache: 460 2729
Swap: 2000 78 1921

查看/proc/kcore文件的大小（內存鏡像）：
[root@scs-2 tmp]# ll -h /proc/kcore
-r-------- 1 root root 4.1G Jun 12 12:04 /proc/kcore

備註：

佔用內存的測量

測量一個進程佔用了多少內存，linux為我們提供了一個很方便的方法，/proc目錄為我們提供了所有的信息，實際上top等工具也通過這里來獲取相應的信息。

/proc/meminfo 機器的內存使用信息

/proc/pid/maps pid為進程號，顯示當前進程所佔用的虛擬地址。

/proc/pid/statm 進程所佔用的內存

[root@localhost ~]# cat /proc/self/statm

654 57 44 0 0 334 0

輸出解釋

CPU 以及CPU0。。。的每行的每個參數意思（以第一行為例）為：

參數解釋 /proc//status

Size (pages) 任務虛擬地址空間的大小 VmSize/4

Resident(pages) 應用程序正在使用的物理內存的大小 VmRSS/4

Shared(pages) 共享頁數 0

Trs(pages) 程序所擁有的可執行虛擬內存的大小 VmExe/4

Lrs(pages) 被映像到任務的虛擬內存空間的庫的大小 VmLib/4

Drs(pages) 程序數據段和用戶態的棧的大小（VmData+ VmStk ）4

dt(pages) 04

查看機器可用內存

/proc/28248/>free

total used free shared buffers cached

Mem: 1023788 926400 97388 0 134668 503688

-/+ buffers/cache: 288044 735744

Swap: 1959920 89608 1870312

我們通過free命令查看機器空閑內存時，會發現free的值很小。這主要是因為，在linux中有這么一種思想，內存不用白不用，因此它盡可能的cache和buffer一些數據，以方便下次使用。但實際上這些內存也是可以立刻拿來使用的。

所以空閑內存=free+buffers+cached=total-used

top命令是Linux下常用的性能分析工具，能夠實時顯示系統中各個進程的資源佔用狀況，類似於Windows的任務管理器。下面詳細介紹它的使用方法。

top - 02:53:32 up 16 days, 6:34, 17 users, load average: 0.24, 0.21, 0.24
Tasks: 481 total, 3 running, 474 sleeping, 0 stopped, 4 zombie
Cpu(s): 10.3%us, 1.8%sy, 0.0%ni, 86.6%id, 0.5%wa, 0.2%hi, 0.6%si, 0.0%st
Mem: 4042764k total, 4001096k used, 41668k free, 383536k buffers
Swap: 2104472k total, 7900k used, 2096572k free, 1557040k cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
32497 jacky 20 0 669m 222m 31m R 10 5.6 29:27.62 firefox
4788 yiuwing 20 0 257m 18m 13m S 5 0.5 5:42.44 konsole
5657 Liuxiaof 20 0 585m 159m 30m S 4 4.0 5:25.06 firefox
4455 xiefc 20 0 542m 124m 30m R 4 3.1 7:23.03 firefox
6188 Liuxiaof 20 0 191m 17m 13m S 4 0.5 0:01.16 konsole

統計信息區前五行是系統整體的統計信息。第一行是任務隊列信息，同 uptime 命令的執行結果。其內容如下：

01:06:48 當前時間
up 1:22 系統運行時間，格式為時:分
1 user 當前登錄用戶數
load average: 0.06, 0.60, 0.48 系統負載，即任務隊列的平均長度。
三個數值分別為 1分鍾、5分鍾、15分鍾前到現在的平均值。

第二、三行為進程和CPU的信息。當有多個CPU時，這些內容可能會超過兩行。內容如下：

Tasks: 29 total 進程總數
1 running 正在運行的進程數
28 sleeping 睡眠的進程數
0 stopped 停止的進程數
0 zombie 僵屍進程數
Cpu(s): 0.3% us 用戶空間佔用CPU百分比
1.0% sy 內核空間佔用CPU百分比
0.0% ni 用戶進程空間內改變過優先順序的進程佔用CPU百分比
98.7% id 空閑CPU百分比
0.0% wa 等待輸入輸出的CPU時間百分比
0.0% hi
0.0% si

最後兩行為內存信息。內容如下：

Mem: 191272k total 物理內存總量
173656k used 使用的物理內存總量
17616k free 空閑內存總量
22052k buffers 用作內核緩存的內存量
Swap: 192772k total 交換區總量
0k used 使用的交換區總量
192772k free 空閑交換區總量
123988k cached 緩沖的交換區總量。
內存中的內容被換出到交換區，而後又被換入到內存，但使用過的交換區尚未被覆蓋，
該數值即為這些內容已存在於內存中的交換區的大小。
相應的內存再次被換出時可不必再對交換區寫入。

進程信息區統計信息區域的下方顯示了各個進程的詳細信息。首先來認識一下各列的含義。

序號列名含義
a PID 進程id
b PPID 父進程id
c RUSER Real user name
d UID 進程所有者的用戶id
e USER 進程所有者的用戶名
f GROUP 進程所有者的組名
g TTY 啟動進程的終端名。不是從終端啟動的進程則顯示為 ?
h PR 優先順序
i NI nice值。負值表示高優先順序，正值表示低優先順序
j P 最後使用的CPU，僅在多CPU環境下有意義
k %CPU 上次更新到現在的CPU時間佔用百分比
l TIME 進程使用的CPU時間總計，單位秒
m TIME+ 進程使用的CPU時間總計，單位1/100秒
n %MEM 進程使用的物理內存百分比
o VIRT 進程使用的虛擬內存總量，單位kb。VIRT=SWAP+RES
p SWAP 進程使用的虛擬內存中，被換出的大小，單位kb。
q RES 進程使用的、未被換出的物理內存大小，單位kb。RES=CODE+DATA
r CODE 可執行代碼佔用的物理內存大小，單位kb
s DATA 可執行代碼以外的部分(數據段+棧)佔用的物理內存大小，單位kb
t SHR 共享內存大小，單位kb
u nFLT 頁面錯誤次數
v nDRT 最後一次寫入到現在，被修改過的頁面數。
w S 進程狀態。
D =不可中斷的睡眠狀態
R =運行
S =睡眠
T =跟蹤/停止
Z =僵屍進程
x COMMAND 命令名/命令行
y WCHAN 若該進程在睡眠，則顯示睡眠中的系統函數名
z Flags 任務標志，參考 sched.h

默認情況下僅顯示比較重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通過下面的快捷鍵來更改顯示內容。
更改顯示內容通過 f 鍵可以選擇顯示的內容。按 f 鍵之後會顯示列的列表，按 a-z 即可顯示或隱藏對應的列，最後按回車鍵確定。
按 o 鍵可以改變列的顯示順序。按小寫的 a-z 可以將相應的列向右移動，而大寫的 A-Z 可以將相應的列向左移動。最後按回車鍵確定。
按大寫的 F 或 O 鍵，然後按 a-z 可以將進程按照相應的列進行排序。而大寫的 R 鍵可以將當前的排序倒轉。

==============================

top命令使用過程中，還可以使用一些交互的命令來完成其它參數的功能。這些命令是通過快捷鍵啟動的。
＜空格＞：立刻刷新。
P：根據CPU使用大小進行排序。
T：根據時間、累計時間排序。
q：退出top命令。
m：切換顯示內存信息。
t：切換顯示進程和CPU狀態信息。
c：切換顯示命令名稱和完整命令行。
M：根據使用內存大小進行排序。
W：將當前設置寫入~/.toprc文件中。這是寫top配置文件的推薦方法。

可以看到，top命令是一個功能十分強大的監控系統的工具，對於系統管理員而言尤其重要。但是，它的缺點是會消耗很多系統資源。

應用實例
使用top命令可以監視指定用戶，預設情況是監視所有用戶的進程。如果想查看指定用戶的情況，在終端中按「U」鍵，然後輸入用戶名，系統就會切換為指定用戶的進程運行界面。
a.作用
free命令用來顯示內存的使用情況，使用許可權是所有用戶。
b.格式
free [－b－k－m] [－o] [－s delay] [－t] [－V]
c.主要參數
－b －k －m：分別以位元組（KB、MB）為單位顯示內存使用情況。
－s delay：顯示每隔多少秒數來顯示一次內存使用情況。
－t：顯示內存總和列。
－o：不顯示緩沖區調節列。
d.應用實

⑵ Linux 內核的內存管理 - 概念

Concepts overview — The Linux Kernel documentation

Linux中的內存管理是一個復雜的系統，經過多年的發展，它包含越來越多的功能，以支持從 MMU-less microcontrollers 到 supercomputers 的各種系統。
沒有MMU內存管理的系統被稱為 nommu ，它值得寫一份專門的文檔進行描述。
盡管有些概念是相同的，這里我們假設MMU可用，CPU可以將虛擬地址轉換為物理地址。

計算機系統中的物理內存是有限資源，即便支持內存熱插拔，其可以安裝的內存也有限的。物理內存不一定必須是連續的；它可以作為一組不同的地址范圍被訪問。此外，不同的CPU架構，甚至同架構的不同實現對如何定義這些地址范圍都是不同的。

這使得直接處理物理內存異常復雜，為了避免這種復雜性，開發了 虛擬內存（virtual memory） 的概念。

虛擬內存從應用軟體中抽象出物理內存的細節，只允許在物理內存中保留需要的信息 （demand paging） ，並提供一種機制來保護和控制進程之間的數據共享。

通過虛擬內存，每次內存訪問都訪問一個 虛擬地址 。當CPU對從系統內存讀取（或寫入）的指令進行解碼時，它將該指令中編碼的虛擬地址轉換為內存控制器可以理解的物理地址。

物理內存被切分為 頁幀 page frames 或 頁 pages 。頁的大小是基於架構的。一些架構允許從幾個支持的值中選擇頁大小；此選擇在內核編譯時設置到內核配置。

每個物理內存頁都可以映射為一個或多個 虛擬頁（virtual pages） 。映射關系描述在 頁表（page tables） 中，頁表將程序使用的虛擬地址轉換為物理內存地址。頁表以層次結構組織。

最底層的表包含軟體使用的實際內存頁的物理地址。較高層的表包含較低層表頁的物理地址。頂層表的指針駐留在寄存器中。
當CPU進行地址轉換的時候，它使用寄存器訪問頂級頁表。

虛擬地址的高位，用於頂級頁表的條目索引。然後，通過該條目訪問下級，下級的虛擬地址位又作為其下下級頁表的索引。虛擬地址的最低位定義實際頁內的偏移量。

地址轉換需要多次內存訪問，而內存訪問相對於CPU速度來說比較慢。為了避免在地址轉換上花費寶貴的處理器周期，CPU維護著一個稱為 TLB （Translation Lookaside Buffer）的用於地址轉換緩存（cache）。通常TLB是非常稀缺的資源，需要大內存工作應用程序會因為TLB未命中而影響性能。

很多現代CPU架構允許頁表的高層直接映射到內存頁。例如，x86架構，可以通過二級、三級頁表的條目映射2M甚至1G內存頁。在Linux中，這些內存頁稱為 大頁（Huge） 。大頁的使用顯著降低了TLB的壓力，提高了TLB命中率，從而提高了系統的整體性能。

Linux提供兩種機制開啟使用大頁映射物理內存。

第一個是 HugeTLB 文件系統，即 hugetlbfs 。它是一個偽文件系統，使用RAM作為其存儲。在此文件系統中創建的文件，數據駐留在內存中，並使用大頁進行映射。
關於 HugeTLB Pages

另一個被稱為 THP (Transparent HugePages) ，後出的開啟大頁映射物理內存的機制。
與 hugetlbfs 不同，hugetlbfs要求用戶和/或系統管理員配置系統內存的哪些部分應該並可以被大頁映射；THP透明地管理這些映射並獲取名稱。
關於 Transparent Hugepage Support

通常，硬體對不同物理內存范圍的訪問方式有所限制。某些情況下，設備不能對所有可定址內存執行DMA。在其他情況下，物理內存的大小超過虛擬內存的最大可定址大小，需要採取特殊措施來訪問部分內存。還有些情況，物理內存的尺寸超過了虛擬內存的最大可定址尺寸，需要採取特殊措施來訪問部分內存。

Linux根據內存頁的使用情況，將其組合為多個 zones 。比如， ZONE_DMA 包含設備用於DMA的內存， ZONE_HIGHMEM 包含未永久映射到內核地址空間的內存， ZONE_NORMAL 包含正常定址內存頁。
內存zones的實際層次架構取決於硬體，因為並非所有架構都定義了所有的zones，不同平台對DMA的要求也不同。

多處理器機器很多基於 NUMA （Non-Uniform Memory Access system - 非統一內存訪問系統）架構。在這樣的系統中，根據與處理器的「距離」，內存被安排成具有不同訪問延遲的 banks 。每個 bank 被稱為一個 node ，Linux為每個 node 構造一個獨立的內存管理子系統。 Node 有自己的zones集合、free&used頁面列表，以及各種統計計數器。
What is NUMA?
NUMA Memory Policy

物理內存易失，將數據放入內存的常見情況是讀取文件。讀取文件時，數據會放入 頁面緩存（page cache） ，可以在再次讀取時避免耗時的磁碟訪問。同樣，寫文件時，數據也會被放入 頁面緩存 ，並最終進入存儲設備。被寫入的頁被標記為 臟頁（dirty page） ，當Linux決定將其重用時，它會將更新的數據同步到設備上的文件。

匿名內存 anonymous memory 或 匿名映射 anonymous mappings 表示沒有後置文件系統的內存。這些映射是為程序的stack和heap隱式創建的，或調用mmap（2）顯式創建的。通常，匿名映射只定義允許程序訪問的虛擬內存區域。讀，會創建一個頁表條目，該條目引用一個填充有零的特殊物理頁。寫，則分配一個常規物理頁來保存寫入數據。該頁將被標記為臟頁，如果內核決定重用該頁，則臟頁將被交換出去 swapped out 。

縱貫整個系統生命周期，物理頁可用於存儲不同類型的數據。它可以是內核內部數據結構、設備驅動DMA緩沖區、讀取自文件系統的數據、用戶空間進程分配的內存等。
根據內存頁使用情況，Linux內存管理會區別處理。可以隨時釋放的頁面稱為 可回收（reclaimable） 頁面，因為它們把數據緩存到了其他地方（比如，硬碟），或者被swap out到硬碟上。
可回收頁最值得注意的是 頁面緩存 和 匿名頁面 。

在大多數情況下，存放內部內核數據的頁，和用作DMA緩沖區的頁無法重用，它們將保持現狀直到用戶釋放。這樣的被稱為 不可回收頁（unreclaimable） 。
然而，在特定情況下，即便是內核數據結構佔用的頁面也會被回收。
例如，文件系統元數據的緩存（in-memory）可以從存儲設備中重新讀取，因此，當系統存在內存壓力時，可以從主內存中丟棄它們。

釋放可回收物理內存頁並重新調整其用途的過程稱為 (surprise!) reclaim 。
Linux支持非同步或同步回收頁，取決於系統的狀態。
當系統負載不高時，大部分內存是空閑的，可以立即從空閑頁得到分配。
當系統負載提升後，空閑頁減少，當達到某個閾值（ low watermark ）時，內存分配請求將喚醒 kswapd 守護進程。它將以非同步的方式掃描內存頁。如果內存頁中的數據在其他地方也有，則釋放這些內存頁；或者退出內存到後置存儲設備（關聯臟頁）。

隨著內存使用量進一步增加，並達到另一個閾值- min watermark -將觸發回收。這種情況下，分配將暫停，直到回收到足夠的內存頁。

當系統運行時，任務分配並釋放內存，內存變得碎片化。
雖然使用虛擬內存可以將分散的物理頁表示為虛擬連續范圍，但有時需要分配大的連續的物理內存。這種需求可能會提升。例如，當設備驅動需要一個大的DMA緩沖區時，或當THP分配一個大頁時。
內存地址壓縮（compaction ） 解決了碎片問題。
該機制將佔用的頁從內存zone的下部移動到上部的空閑頁。壓縮掃描完成後，zone開始處的空閑頁就並在一起了，分配較大的連續物理內存就可行了。

與 reclaim 類似， compaction 可以在 kcompactd守護進程中非同步進行，也可以作為內存分配請求的結果同步進行。

在存在負載的機器上，內存可能會耗盡，內核無法回收到足夠的內存以繼續運行。
為了保障系統的其餘部分，引入了 OOM killer 。

OOM killer 選擇犧牲一個任務來保障系統的總體健康。選定的任務被killed，以期望在它退出後釋放足夠的內存以繼續正常的操作。

導航:首頁 > 操作系統 > linuxhugepage

linuxhugepage

與linuxhugepage相關的資料