㈠ 如何區分GPU伺服器和普通伺服器
GPU伺服器是基於GPU的應用視頻編解碼、深度學習、海量運算等多種場景的快速、穩定的計算服務。GPU加速計算可以提供非凡的應用程序性能,能將應用程序計算密集部分的工作負載到GPU,同時仍由CPU運行其餘程序代碼。普通伺服器在這些方面的應用上可能會稍微差點。其實你也可以去網上對比看看,去官網找幾個具體的型號做一下對比。思騰合力在業界的口碑還是不錯的,擁有覆蓋全場景的需求的GPU伺服器產品線,擁有自主品牌GPU伺服器以及通用X86伺服器,還是挺不錯的。
㈡ 如何部署GPU滿足伺服器工作負載需求
選擇GPU伺服器時首先要考慮業務需求來選擇適合的GPU型號。在HPC高性能計算中還需要根據精度來選擇,比如有的高性能計算需要雙精度,這時如果使用P40或者P4就不合適,只能使用V100或者P100;同時也會對顯存容量有要求,比如石油或石化勘探類的計算應用對顯存要求比較高;還有些對匯流排標准有要求,因此選擇GPU型號要先看業務需求。
GPU伺服器人工智慧領域的應用也比較多。在教學場景中,對GPU虛擬化的要求比較高。根據課堂人數,一個老師可能需要將GPU伺服器虛擬出30甚至60個虛擬GPU,因此批量Training對GPU要求比較高,通常用V100做GPU的訓練。模型訓練完之後需要進行推理,因此推理一般會使用P4或者T4,少部分情況也會用V100。
綜上所述,選擇伺服器時不僅需要考慮業務需求,還要考慮性能指標,比如精度、顯存類型、顯存容量以及功耗等,同時也會有一些伺服器是需要水冷、降噪或者對溫度、移動性等等方面有特殊的要求,就需要特殊定製的伺服器。
歡迎了解更多:網頁鏈接
㈢ Linux伺服器如何查看GPU信息
Linux查看顯卡信息:
[python] view
plain
lspci | grep -i vga
使用nvidia
GPU可以:
[python] view
plain
lspci | grep -i nvidia
前邊的序號
"00:0f.0"是顯卡的代號(這里是用的虛擬機);
查看指定顯卡的詳細信息用以下指令:
[python] view
plain
lspci -v -s 00:0f.0
Linux查看Nvidia顯卡信息及使用情況
Nvidia自帶一個命令行工具可以查看顯存的使用情況:
[python] view
plain
nvidia-smi
表頭釋義:
Fan:顯示風扇轉速,數值在0到100%之間,是計算機的期望轉速,如果計算機不是通過風扇冷卻或者風扇壞了,顯示出來就是N/A;
Temp:顯卡內部的溫度,單位是攝氏度;
Perf:表徵性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU匯流排的相關信息;
Disp.A:是Display
Active的意思,表示GPU的顯示是否初始化;
Memory
Usage:顯存的使用率;
Volatile
GPU-Util:浮動的GPU利用率;
Compute
M:計算模式;
下邊的Processes顯示每塊GPU上每個進程所使用的顯存情況。
如果要周期性的輸出顯卡的使用情況,可以用watch指令實現:
[python] view
plain
watch -n 10 nvidia-smi
命令行參數-n後邊跟的是執行命令的周期,以s為單位。